Detail publikace
Joint Training of Speaker Embedding Extractor, Speech and Overlap Detection for Diarization
Landini Federico Nicolás (UPGM FIT VUT)
Klement Dominik, Ing. (UPGM FIT VUT)
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM FIT VUT)
Silnova Anna, MSc., Ph.D. (UPGM FIT VUT)
Delcroix Marc (NTT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
diarizace mluvčích, vkládání mluvčích, detekce hlasové aktivity, detekce překrývající se řeči
Navzdory současné popularitě systémů end-to-end diarizace dosahují modulární systémy složené z detekce hlasové aktivity (VAD), extrakce a shlukování vložení mluvčího a detekce překrývající se řeči (OSD) a jejího zpracování stále konkurenceschopného výkonu v mnoha podmínkách. Jednou z hlavních nevýhod modulárních systémů je však nutnost spouštět (a trénovat) různé moduly nezávisle na sobě. V této práci navrhujeme přístup ke společnému trénování modelu, který produkuje vložení mluvčího, VAD a OSD současně a dosahuje konkurenceschopného výkonu za zlomek inferenčního času modulárního přístupu. Společná inference navíc vede ke zjednodušení celkového procesu, což nás přibližuje o krok blíže k jednotné metodě založené na shlukování, kterou lze trénovat end-to-end směrem k cíli specifickému pro diarizaci.
@INPROCEEDINGS{FITPUB13567, author = "Petr P\'{a}lka and Nicol\'{a}s Federico Landini and Dominik Klement and Mireia S\'{a}nchez Diez and Anna Silnova and Marc Delcroix and Luk\'{a}\v{s} Burget", title = "Joint Training of Speaker Embedding Extractor, Speech and Overlap Detection for Diarization", pages = "1--5", booktitle = "Proceedings of Eusipco 2025", year = 2025, location = "Palermo, IT", publisher = "IEEE Signal Processing Society", language = "english", url = "https://www.fit.vut.cz/research/publication/13567" }