Detail publikace
Bayesian HMM clustering of x-vector sequences (VBx) in speaker diarization: Theory, implementation and analysis on standard tasks
Profant Ján, Ing.
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Speaker diarization, Variational Bayes, HMM, x-vector, AMI
Nedávno navržená metoda VBx diarizace používá Bayesovský skrytý Markovův model k nalezení shluků mluvčích v sekvenci x-vektorů. V této práci provádíme rozsáhlé srovnání výkonu VBx diarizace s jinými přístupy v literatuře a ukazujeme, že VBx dosahuje vynikajícího výkonu na třech nejpopulárnějších datových sadách pro vyhodnocení diarizace: CALLHOME, AMI a DIHARD II datových sadách. Dále poprvé představujeme odvození a aktualizaci vzorců pro model VBx se zaměřením na efektivitu a jednoduchost tohoto modelu ve srovnání s předchozím a složitějším modelem BHMM pracujícím na standardních funkcích Cepstral snímek po snímku. Společně s touto publikací zveřejňujeme recept na trénování extraktorů x-vektorů používaných v našich experimentech na širokopásmových i úzkopásmových datech a receptury VBx, které dosahují nejmodernějšího výkonu na všech třech souborech dat. Kromě toho poukazujeme na nedostatek standardizovaného vyhodnocovacího protokolu pro datovou sadu AMI a navrhujeme nový protokol pro zvuk Beamformed i Mix-Headset založený na oficiálních oddílech a přepisech AMI.
@article{BUT175852,
author="Federico Nicolás {Landini} and Ján {Profant} and Mireia {Diez Sánchez} and Lukáš {Burget}",
title="Bayesian HMM clustering of x-vector sequences (VBx) in speaker diarization: Theory, implementation and analysis on standard tasks",
journal="COMPUTER SPEECH AND LANGUAGE",
year="2022",
volume="71",
number="101254",
pages="1--16",
doi="10.1016/j.csl.2021.101254",
issn="0885-2308",
url="https://www.sciencedirect.com/science/article/pii/S0885230821000619"
}