Detail publikace
From Simulated Mixtures to Simulated Conversations as Training Data for End-to-End Neural Diarization
Lozano Díez Alicia, Ph.D.
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
peaker diarization, end-to-end neural diariza- tion, simulated conversations
Koncová neuronová diarizace (EEND) je v současnosti jedním z nejvýznamnějších výzkumných témat v oblasti diarizace mluvčích. EEND představuje atraktivní alternativu ke standardním kaskádovým diarizačním systémům, protože k řešení celého problému diarizace je najednou natrénován jediný systém. Je navrženo několik variant a přístupů EEND, nicméně všechny tyto modely vyžadují pro trénování velké množství anotovaných dat, ale dostupných anotovaných dat je málo. Práce EEND proto k trénování většinou používaly simulované směsi. Simulované směsi se však v mnoha ohledech nepodobají skutečným konverzacím. V této práci představujeme alternativní metodu pro vytváření syntetických konverzací, které se podobají skutečným, pomocí statistik o rozložení pauz a překryvů odhadnutých na skutečných konverzacích. Dále analyzujeme vliv zdroje statistik, různých rozšíření a množství dat. Ukazujeme, že náš přístup funguje podstatně lépe než původní přístup a zároveň snižuje závislost na fázi jemného dolaďování. Experimenty provádíme na telefonních rozhovorech se dvěma mluvčími Callhome a DIHARD 3. Společně s touto publikací vydáváme naše implementace EEND a metodu pro vytváření simulovaných rozhovorů.
@inproceedings{BUT179780,
author="Federico Nicolás {Landini} and Alicia {Lozano Díez} and Mireia {Diez Sánchez} and Lukáš {Burget}",
title="From Simulated Mixtures to Simulated Conversations as Training Data for End-to-End Neural Diarization",
booktitle="Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
year="2022",
journal="Proceedings of Interspeech",
volume="2022",
number="9",
pages="5095--5099",
publisher="International Speech Communication Association",
address="Incheon",
doi="10.21437/Interspeech.2022-10451",
issn="1990-9772",
url="https://www.isca-speech.org/archive/pdfs/interspeech_2022/landini22_interspeech.pdf"
}