Detail publikace

Normalising Flows for Speaker and Language Recognition Backend

ESPUNA, A.; PRASAD, A.; MOTLÍČEK, P.; MADIKERI, S.; SCHUEPBACH, C. Normalising Flows for Speaker and Language Recognition Backend. Proceedings of Odyssey 2024: The Speaker and Language Recognition Workshop. Quebec: International Speech Communication Association, 2024. p. 74-80.

Název česky

Normalizace toků pro back-end pro rozpoznávání mluvčího a jazyka

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

ESPUNA, A.
Prasad Amrutha (UPGM)
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
Madikeri Srikanth
SCHUEPBACH, C.

URL

Klíčová slova

Rozpoznávání řečníka, rozpoznávání jazyka

Abstrakt

V tomto článku se zabýváme předpokladem Gaussova rozdělení
vyrobeno v PLDA, populárním back-end klasifikátoru používaném v Speaker
a úkoly rozpoznávání jazyka. Studujeme normalizační toky,
které umožňují používat nelineární transformace a přesto získat a
model, který může explicitně reprezentovat hustotu pravděpodobnosti. The
model nepředpokládá distribuci ob-
servírování. To zmírňuje potřebu normalizace délky,
dobře známý krok předzpracování dat používaný k posílení PLDA
výkon. Demonstrujeme účinnost tohoto toku
model na datových sadách NIST SRE16, LRE17 a LRE22. my ob-
slouží, že při použití normalizace délky, jak tok
model a PLDA dosahují podobných EER pro SRE16 (11,5 % vs
11,8 %). Pokud však není použita normalizace délky,
tok vykazuje větší robustnost a nabízí lepší EER (13,1 %
oproti 17,1 %). Pro LRE17 a LRE22 je nejlepší klasifikační
rasy (84,2 %, 75,5 %) jsou získány modelem toku bez
jakákoli potřeba normalizace délky.

Rok

2024

Strany

74–80

Sborník

Proceedings of Odyssey 2024: The Speaker and Language Recognition Workshop

Konference

Odyssey 2024: The Speaker and Language Recognition Workshop, Quebec, Canada, CA

Vydavatel

International Speech Communication Association

Místo

Quebec

DOI

10.21437/odyssey.2024-11

BibTeX

@inproceedings{BUT193369,
  author="ESPUNA, A. and PRASAD, A. and MOTLÍČEK, P. and MADIKERI, S. and SCHUEPBACH, C.",
  title="Normalising Flows for Speaker and Language Recognition Backend",
  booktitle="Proceedings of Odyssey 2024: The Speaker and Language Recognition Workshop",
  year="2024",
  pages="74--80",
  publisher="International Speech Communication Association",
  address="Quebec",
  doi="10.21437/odyssey.2024-11",
  url="https://www.isca-archive.org/odyssey_2024/espuna24_odyssey.pdf"
}

Soubory

pdf espuna2024_odyssey.pdf 454 kB