Detail publikace

From Simulated Mixtures to Simulated Conversations as Training Data for End-to-End Neural Diarization

LANDINI, F.; LOZANO DÍEZ, A.; DIEZ SÁNCHEZ, M.; BURGET, L. From Simulated Mixtures to Simulated Conversations as Training Data for End-to-End Neural Diarization. In Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Proceedings of Interspeech. Incheon: International Speech Communication Association, 2022. p. 5095-5099. ISSN: 1990-9772.
Název česky
Od simulovaných směsí k simulovaným konverzacím využitým jako trénovací data pro end-to-end neurální diarizaci
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

peaker diarization, end-to-end neural diariza- tion, simulated conversations

Abstrakt

Koncová neuronová diarizace (EEND) je v současnosti jedním z nejvýznamnějších výzkumných témat v oblasti diarizace mluvčích. EEND představuje atraktivní alternativu ke standardním kaskádovým diarizačním systémům, protože k řešení celého problému diarizace je najednou natrénován jediný systém. Je navrženo několik variant a přístupů EEND, nicméně všechny tyto modely vyžadují pro trénování velké množství anotovaných dat, ale dostupných anotovaných dat je málo. Práce EEND proto k trénování většinou používaly simulované směsi. Simulované směsi se však v mnoha ohledech nepodobají skutečným konverzacím. V této práci představujeme alternativní metodu pro vytváření syntetických konverzací, které se podobají skutečným, pomocí statistik o rozložení pauz a překryvů odhadnutých na skutečných konverzacích. Dále analyzujeme vliv zdroje statistik, různých rozšíření a množství dat. Ukazujeme, že náš přístup funguje podstatně lépe než původní přístup a zároveň snižuje závislost na fázi jemného dolaďování. Experimenty provádíme na telefonních rozhovorech se dvěma mluvčími Callhome a DIHARD 3. Společně s touto publikací vydáváme naše implementace EEND a metodu pro vytváření simulovaných rozhovorů.

Rok
2022
Strany
5095–5099
Časopis
Proceedings of Interspeech, roč. 2022, č. 9, ISSN 1990-9772
Sborník
Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH
Vydavatel
International Speech Communication Association
Místo
Incheon
DOI
UT WoS
000900724505055
EID Scopus
BibTeX
@inproceedings{BUT179780,
  author="Federico Nicolás {Landini} and Alicia {Lozano Díez} and Mireia {Diez Sánchez} and Lukáš {Burget}",
  title="From Simulated Mixtures to Simulated Conversations as Training Data for End-to-End Neural Diarization",
  booktitle="Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
  year="2022",
  journal="Proceedings of Interspeech",
  volume="2022",
  number="9",
  pages="5095--5099",
  publisher="International Speech Communication Association",
  address="Incheon",
  doi="10.21437/Interspeech.2022-10451",
  issn="1990-9772",
  url="https://www.isca-speech.org/archive/pdfs/interspeech_2022/landini22_interspeech.pdf"
}
Nahoru