Detail publikace

Joint Training of Speaker Embedding Extractor, Speech and Overlap Detection for Diarization

PáLKA Petr, LANDINI Federico Nicolás, KLEMENT Dominik, DIEZ Sánchez Mireia, SILNOVA Anna, DELCROIX Marc a BURGET Lukáš. Joint Training of Speaker Embedding Extractor, Speech and Overlap Detection for Diarization. In: Proceedings of Eusipco 2025. Palermo: IEEE Signal Processing Society, 2025, s. 1-5.
Název česky
Společné tréninování extraktoru embeddingů mluvčích, detekce řeči a detekce překrytí mluvčích pro diarizaci
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Pálka Petr, Bc. (UPGM FIT VUT)
Landini Federico Nicolás (UPGM FIT VUT)
Klement Dominik, Ing. (UPGM FIT VUT)
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM FIT VUT)
Silnova Anna, MSc., Ph.D. (UPGM FIT VUT)
Delcroix Marc (NTT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Klíčová slova

diarizace mluvčích, vkládání mluvčích, detekce hlasové aktivity, detekce překrývající se řeči

Abstrakt

Navzdory současné popularitě systémů end-to-end diarizace dosahují modulární systémy složené z detekce hlasové aktivity (VAD), extrakce a shlukování vložení mluvčího a detekce překrývající se řeči (OSD) a jejího zpracování stále konkurenceschopného výkonu v mnoha podmínkách. Jednou z hlavních nevýhod modulárních systémů je však nutnost spouštět (a trénovat) různé moduly nezávisle na sobě. V této práci navrhujeme přístup ke společnému trénování modelu, který produkuje vložení mluvčího, VAD a OSD současně a dosahuje konkurenceschopného výkonu za zlomek inferenčního času modulárního přístupu. Společná inference navíc vede ke zjednodušení celkového procesu, což nás přibližuje o krok blíže k jednotné metodě založené na shlukování, kterou lze trénovat end-to-end směrem k cíli specifickému pro diarizaci.

Rok
2025 (v tisku)
Strany
1-5
Sborník
Proceedings of Eusipco 2025
Konference
The 33rd European Signal Processing Conference (EUSIPCO 2025), Palermo, IT
Vydavatel
IEEE Signal Processing Society
Místo
Palermo, IT
BibTeX
@INPROCEEDINGS{FITPUB13567,
   author = "Petr P\'{a}lka and Nicol\'{a}s Federico Landini and Dominik Klement and Mireia S\'{a}nchez Diez and Anna Silnova and Marc Delcroix and Luk\'{a}\v{s} Burget",
   title = "Joint Training of Speaker Embedding Extractor, Speech and Overlap Detection for Diarization",
   pages = "1--5",
   booktitle = "Proceedings of Eusipco 2025",
   year = 2025,
   location = "Palermo, IT",
   publisher = "IEEE Signal Processing Society",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13567"
}
Nahoru