Detail publikace

Multi-Speaker and Wide-Band Simulated Conversations as Training Data for End-to-End Neural Diarization

LANDINI, F.; DIEZ SÁNCHEZ, M.; LOZANO DÍEZ, A.; BURGET, L. Multi-Speaker and Wide-Band Simulated Conversations as Training Data for End-to-End Neural Diarization. In Proceedings of ICASSP 2023. Rhodes Island: IEEE Signal Processing Society, 2023. p. 1-5. ISBN: 978-1-7281-6327-7.
Název česky
Simulované rozhovory s více mluvčími v širokém kmitočtovém pásmu jako trénovací data pro celostní neurální diarizaci
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

Speaker diarization, end-to-end neural diarization, simulated conversations

Abstrakt

End-to-end diarizace představuje atraktivní alternativu ke standardním kaskádovým diarizovým systémům, protože jediný systém zvládne všechny aspekty úkolu najednou. Bylo navrženo mnoho variant end-to-end modelů, ale všechny vyžadují (zatím neexistující) velké množství anotovaných dat pro trénování. Kompromisní řešení spočívá ve generování syntetických dat a nedávno navržené simulované konverzace (SC) ukázaly pozoruhodná zlepšení oproti původním simulovaným směsím (SM). V této práci vytváříme SC s více mluvčími v konverzaci a ukazujeme, že umožňují podstatně lepší výkon než SM a také snižují závislost na dolaďovací fázi. Vytváříme také SC s širokopásmovými veřejnými audio zdroji a předkládáme analýzu několika vyhodnocovacích sad. Společně s touto publikací zveřejňujeme recepty na generování takových dat a modelů trénovaných na veřejných sestavách a také implementaci pro efektivní zpracování více mluvčích na konverzaci a ztrátu detekce pomocné hlasové aktivity.

Rok
2023
Strany
1–5
Sborník
Proceedings of ICASSP 2023
ISBN
978-1-7281-6327-7
Vydavatel
IEEE Signal Processing Society
Místo
Rhodes Island
DOI
EID Scopus
BibTeX
@inproceedings{BUT185197,
  author="Federico Nicolás {Landini} and Mireia {Diez Sánchez} and Alicia {Lozano Díez} and Lukáš {Burget}",
  title="Multi-Speaker and Wide-Band Simulated Conversations as Training Data for End-to-End Neural Diarization",
  booktitle="Proceedings of ICASSP 2023",
  year="2023",
  pages="1--5",
  publisher="IEEE Signal Processing Society",
  address="Rhodes Island",
  doi="10.1109/ICASSP49357.2023.10097049",
  isbn="978-1-7281-6327-7",
  url="https://ieeexplore.ieee.org/document/10097049"
}
Nahoru