Detail publikace

Joint Training of Speaker Embedding Extractor, Speech and Overlap Detection for Diarization

PáLKA Petr, LANDINI Federico Nicolás, KLEMENT Dominik, DIEZ Sánchez Mireia, SILNOVA Anna, DELCROIX Marc a BURGET Lukáš. Joint Training of Speaker Embedding Extractor, Speech and Overlap Detection for Diarization. In: Proceedings of Eusipco 2025. Palermo: IEEE Signal Processing Society, 2025, s. 1-5.

Název česky

Společné tréninování extraktoru embeddingů mluvčích, detekce řeči a detekce překrytí mluvčích pro diarizaci

Typ

článek ve sborníku konference

Jazyk

angličtina

Autoři

Pálka Petr, Bc. (UPGM FIT VUT)
Landini Federico Nicolás (UPGM FIT VUT)
Klement Dominik, Ing. (UPGM FIT VUT)
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM FIT VUT)
Silnova Anna, MSc., Ph.D. (UPGM FIT VUT)
Delcroix Marc (NTT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)

Klíčová slova

diarizace mluvčích, vkládání mluvčích, detekce hlasové aktivity, detekce překrývající se řeči

Abstrakt

Navzdory současné popularitě systémů end-to-end diarizace dosahují modulární systémy složené z detekce hlasové aktivity (VAD), extrakce a shlukování vložení mluvčího a detekce překrývající se řeči (OSD) a jejího zpracování stále konkurenceschopného výkonu v mnoha podmínkách. Jednou z hlavních nevýhod modulárních systémů je však nutnost spouštět (a trénovat) různé moduly nezávisle na sobě. V této práci navrhujeme přístup ke společnému trénování modelu, který produkuje vložení mluvčího, VAD a OSD současně a dosahuje konkurenceschopného výkonu za zlomek inferenčního času modulárního přístupu. Společná inference navíc vede ke zjednodušení celkového procesu, což nás přibližuje o krok blíže k jednotné metodě založené na shlukování, kterou lze trénovat end-to-end směrem k cíli specifickému pro diarizaci.

Rok

2025 (v tisku)

Strany

1-5

Sborník

Proceedings of Eusipco 2025

Konference

The 33rd European Signal Processing Conference (EUSIPCO 2025), Palermo, IT

Vydavatel

IEEE Signal Processing Society

Místo

Palermo, IT

BibTeX

@INPROCEEDINGS{FITPUB13567,
   author = "Petr P\'{a}lka and Nicol\'{a}s Federico Landini and Dominik Klement and Mireia S\'{a}nchez Diez and Anna Silnova and Marc Delcroix and Luk\'{a}\v{s} Burget",
   title = "Joint Training of Speaker Embedding Extractor, Speech and Overlap Detection for Diarization",
   pages = "1--5",
   booktitle = "Proceedings of Eusipco 2025",
   year = 2025,
   location = "Palermo, IT",
   publisher = "IEEE Signal Processing Society",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13567"
}