Detail publikace
DiaPer: End-to-End Neural Diarization With Perceiver-Based Attractors
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM)
Stafylakis Themos
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Attractor, DiaPer, end-to-end neural diarization, perceiver, speaker diarization.
Donedávna dominovaly na poli diarizace mluvčích kaskádové systémy. Díky svým omezením, zejména co se týče překrývání řeči a těžkopádných pipeline, si v poslední době získaly velkou oblibu end-to-end modely. Jedním z nejúspěšnějších modelů je end-to-end neurální diarizace s atraktory založenými na kodéru a dekodéru (EEND-EDA). V této práci nahrazujeme modul EDA modulem založeným na perceiveru a ukazujeme jeho výhody oproti EEND-EDA; jmenovitě získání lepšího výkonu na převážně studovaném datovém souboru Callhome, přesnější zjištění počtu mluvčích v konverzaci a rychlejší inferenční čas. Navíc, při vyčerpávajícím srovnání s jinými metodami, náš model, DiaPer, dosahuje pozoruhodného výkonu s velmi lehkým designem. Kromě toho provádíme srovnání s jinými díly a kaskádovou základní linií napříč více než deseti veřejnými širokopásmovými datovými sadami. Spolu s touto publikací uvolňujeme kód DiaPer i modely trénované na veřejných a bezplatných datech.
@article{BUT189802,
author="Federico Nicolás {Landini} and Mireia {Diez Sánchez} and Themos {Stafylakis} and Lukáš {Burget}",
title="DiaPer: End-to-End Neural Diarization With Perceiver-Based Attractors",
journal="IEEE Transactions on Audio, Speech, and Language Processing",
year="2024",
volume="32",
number="7",
pages="3450--3465",
doi="10.1109/TASLP.2024.3422818",
issn="1558-7916",
url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10584294"
}