Detail publikace
Normalising Flows for Speaker and Language Recognition Backend
Prasad Amrutha (UPGM)
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
Madikeri Srikanth
SCHUEPBACH, C.
Rozpoznávání řečníka, rozpoznávání jazyka
V tomto článku se zabýváme předpokladem Gaussova rozdělení
vyrobeno v PLDA, populárním back-end klasifikátoru používaném v Speaker
a úkoly rozpoznávání jazyka. Studujeme normalizační toky,
které umožňují používat nelineární transformace a přesto získat a
model, který může explicitně reprezentovat hustotu pravděpodobnosti. The
model nepředpokládá distribuci ob-
servírování. To zmírňuje potřebu normalizace délky,
dobře známý krok předzpracování dat používaný k posílení PLDA
výkon. Demonstrujeme účinnost tohoto toku
model na datových sadách NIST SRE16, LRE17 a LRE22. my ob-
slouží, že při použití normalizace délky, jak tok
model a PLDA dosahují podobných EER pro SRE16 (11,5 % vs
11,8 %). Pokud však není použita normalizace délky,
tok vykazuje větší robustnost a nabízí lepší EER (13,1 %
oproti 17,1 %). Pro LRE17 a LRE22 je nejlepší klasifikační
rasy (84,2 %, 75,5 %) jsou získány modelem toku bez
jakákoli potřeba normalizace délky.
@inproceedings{BUT193369,
author="ESPUNA, A. and PRASAD, A. and MOTLÍČEK, P. and MADIKERI, S. and SCHUEPBACH, C.",
title="Normalising Flows for Speaker and Language Recognition Backend",
booktitle="Proceedings of Odyssey 2024: The Speaker and Language Recognition Workshop",
year="2024",
pages="74--80",
publisher="International Speech Communication Association",
address="Quebec",
doi="10.21437/odyssey.2024-11",
url="https://www.isca-archive.org/odyssey_2024/espuna24_odyssey.pdf"
}