Detail publikace

Normalising Flows for Speaker and Language Recognition Backend

ESPUNA, A.; PRASAD, A.; MOTLÍČEK, P.; MADIKERI, S.; SCHUEPBACH, C. Normalising Flows for Speaker and Language Recognition Backend. Proceedings of Odyssey 2024: The Speaker and Language Recognition Workshop. Quebec: International Speech Communication Association, 2024. p. 74-80.
Název česky
Normalizace toků pro back-end pro rozpoznávání mluvčího a jazyka
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
ESPUNA, A.
Prasad Amrutha (UPGM)
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
Madikeri Srikanth
SCHUEPBACH, C.
URL
Klíčová slova

Rozpoznávání řečníka, rozpoznávání jazyka

Abstrakt

V tomto článku se zabýváme předpokladem Gaussova rozdělení
vyrobeno v PLDA, populárním back-end klasifikátoru používaném v Speaker
a úkoly rozpoznávání jazyka. Studujeme normalizační toky,
které umožňují používat nelineární transformace a přesto získat a
model, který může explicitně reprezentovat hustotu pravděpodobnosti. The
model nepředpokládá distribuci ob-
servírování. To zmírňuje potřebu normalizace délky,
dobře známý krok předzpracování dat používaný k posílení PLDA
výkon. Demonstrujeme účinnost tohoto toku
model na datových sadách NIST SRE16, LRE17 a LRE22. my ob-
slouží, že při použití normalizace délky, jak tok
model a PLDA dosahují podobných EER pro SRE16 (11,5 % vs
11,8 %). Pokud však není použita normalizace délky,
tok vykazuje větší robustnost a nabízí lepší EER (13,1 %
oproti 17,1 %). Pro LRE17 a LRE22 je nejlepší klasifikační
rasy (84,2 %, 75,5 %) jsou získány modelem toku bez
jakákoli potřeba normalizace délky.

Rok
2024
Strany
74–80
Sborník
Proceedings of Odyssey 2024: The Speaker and Language Recognition Workshop
Konference
Odyssey 2024: The Speaker and Language Recognition Workshop, Quebec, Canada, CA
Vydavatel
International Speech Communication Association
Místo
Quebec
DOI
BibTeX
@inproceedings{BUT193369,
  author="ESPUNA, A. and PRASAD, A. and MOTLÍČEK, P. and MADIKERI, S. and SCHUEPBACH, C.",
  title="Normalising Flows for Speaker and Language Recognition Backend",
  booktitle="Proceedings of Odyssey 2024: The Speaker and Language Recognition Workshop",
  year="2024",
  pages="74--80",
  publisher="International Speech Communication Association",
  address="Quebec",
  doi="10.21437/odyssey.2024-11",
  url="https://www.isca-archive.org/odyssey_2024/espuna24_odyssey.pdf"
}
Soubory
Nahoru