Detail publikace
Multi-Speaker and Wide-Band Simulated Conversations as Training Data for End-to-End Neural Diarization
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM)
Lozano Díez Alicia, Ph.D.
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Speaker diarization, end-to-end neural diarization, simulated conversations
End-to-end diarizace představuje atraktivní alternativu ke standardním kaskádovým diarizovým systémům, protože jediný systém zvládne všechny aspekty úkolu najednou. Bylo navrženo mnoho variant end-to-end modelů, ale všechny vyžadují (zatím neexistující) velké množství anotovaných dat pro trénování. Kompromisní řešení spočívá ve generování syntetických dat a nedávno navržené simulované konverzace (SC) ukázaly pozoruhodná zlepšení oproti původním simulovaným směsím (SM). V této práci vytváříme SC s více mluvčími v konverzaci a ukazujeme, že umožňují podstatně lepší výkon než SM a také snižují závislost na dolaďovací fázi. Vytváříme také SC s širokopásmovými veřejnými audio zdroji a předkládáme analýzu několika vyhodnocovacích sad. Společně s touto publikací zveřejňujeme recepty na generování takových dat a modelů trénovaných na veřejných sestavách a také implementaci pro efektivní zpracování více mluvčích na konverzaci a ztrátu detekce pomocné hlasové aktivity.
@inproceedings{BUT185197,
author="Federico Nicolás {Landini} and Mireia {Diez Sánchez} and Alicia {Lozano Díez} and Lukáš {Burget}",
title="Multi-Speaker and Wide-Band Simulated Conversations as Training Data for End-to-End Neural Diarization",
booktitle="Proceedings of ICASSP 2023",
year="2023",
pages="1--5",
publisher="IEEE Signal Processing Society",
address="Rhodes Island",
doi="10.1109/ICASSP49357.2023.10097049",
isbn="978-1-7281-6327-7",
url="https://ieeexplore.ieee.org/document/10097049"
}