Detail publikace

Do End-to-End Neural Diarization Attractors Need to Encode Speaker Characteristic Information?

ZHANG, L.; STAFYLAKIS, T.; LANDINI, F.; DIEZ SÁNCHEZ, M.; SILNOVA, A.; BURGET, L. Do End-to-End Neural Diarization Attractors Need to Encode Speaker Characteristic Information?. Proceedings of Odyssey 2024: The Speaker and Language Recognition Workshop. Québec City: International Speech Communication Association, 2024. p. 123-130.
Název česky
Potřebují atraktory pro neurální end-to-end diarizaci kódovat informaci o mluvčích ?
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
ZHANG, L.
Stafylakis Themos
Landini Federico Nicolás, Ph.D. (VZ SPEECH)
DIEZ SÁNCHEZ, M.
Silnova Anna, M.Sc., Ph.D. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
URL
Klíčová slova

End-to-End Neural Diarization, Speaker Characteristic Information

Abstrakt

V tomto článku aplikujeme přístup s variačním informačním úzkým hrdlem na
end-to-end neurální diarizaci s atraktory kodér-dekodér (EEND-EDA). To nám
umožňuje zjistit, jaké informace jsou pro model zásadní. EEND-EDA využívá
atraktory, vektorové reprezentace mluvčích v konverzaci. Naše analýza ukazuje, že
atraktory nemusí nutně obsahovat informace o charakteristikách mluvčího. Na
druhou stranu, poskytnutí větší volnosti atraktorům, které jim umožní zakódovat
nějaké další (pravděpodobně specifické pro mluvčího) informace, vede k malým, ale
konzistentním zlepšením diarizačního výkonu. Navzdory architektonickým rozdílům
v systémech EEND je představa atraktorů a vestavění rámu pro většinu z nich
společná a není specifická pro EEND-EDA. Domníváme se, že hlavní závěry této
práce lze aplikovat i na další varianty EEND. Doufáme tedy, že tento dokument
bude cenným příspěvkem, který pomůže komunitě činit informovanější rozhodnutí při
navrhování nových systémů.

Rok
2024
Strany
123–130
Sborník
Proceedings of Odyssey 2024: The Speaker and Language Recognition Workshop
Konference
4th International Student Conference POSTER 2000, Praha, CZ
Vydavatel
International Speech Communication Association
Místo
Québec City
DOI
BibTeX
@inproceedings{BUT193432,
  author="ZHANG, L. and STAFYLAKIS, T. and LANDINI, F. and DIEZ SÁNCHEZ, M. and SILNOVA, A. and BURGET, L.",
  title="Do End-to-End Neural Diarization Attractors Need to Encode Speaker Characteristic Information?",
  booktitle="Proceedings of Odyssey 2024: The Speaker and Language Recognition Workshop",
  year="2024",
  pages="123--130",
  publisher="International Speech Communication Association",
  address="Québec City",
  doi="10.21437/odyssey.2024-18",
  url="https://www.isca-archive.org/odyssey_2024/zhang24_odyssey.pdf"
}
Soubory
Nahoru