Detail publikace

Bayesian HMM clustering of x-vector sequences (VBx) in speaker diarization: Theory, implementation and analysis on standard tasks

LANDINI, F.; PROFANT, J.; DIEZ SÁNCHEZ, M.; BURGET, L. Bayesian HMM clustering of x-vector sequences (VBx) in speaker diarization: Theory, implementation and analysis on standard tasks. COMPUTER SPEECH AND LANGUAGE, 2022, vol. 71, no. 101254, p. 1-16. ISSN: 0885-2308.
Název česky
Shlukování sekvencí x-vektorů pomocí bayessovského skrytého Markovova modelu pro diarizaci řečníků: teorie, implementace a analýza na standardních úlohách
Typ
článek v časopise
Jazyk
anglicky
Autoři
URL
Klíčová slova

Speaker diarization, Variational Bayes, HMM, x-vector, AMI

Abstrakt

Nedávno navržená metoda VBx diarizace používá Bayesovský skrytý Markovův model k nalezení shluků mluvčích v sekvenci x-vektorů. V této práci provádíme rozsáhlé srovnání výkonu VBx diarizace s jinými přístupy v literatuře a ukazujeme, že VBx dosahuje vynikajícího výkonu na třech nejpopulárnějších datových sadách pro vyhodnocení diarizace: CALLHOME, AMI a DIHARD II datových sadách. Dále poprvé představujeme odvození a aktualizaci vzorců pro model VBx se zaměřením na efektivitu a jednoduchost tohoto modelu ve srovnání s předchozím a složitějším modelem BHMM pracujícím na standardních funkcích Cepstral snímek po snímku. Společně s touto publikací zveřejňujeme recept na trénování extraktorů x-vektorů používaných v našich experimentech na širokopásmových i úzkopásmových datech a receptury VBx, které dosahují nejmodernějšího výkonu na všech třech souborech dat. Kromě toho poukazujeme na nedostatek standardizovaného vyhodnocovacího protokolu pro datovou sadu AMI a navrhujeme nový protokol pro zvuk Beamformed i Mix-Headset založený na oficiálních oddílech a přepisech AMI.

Rok
2022
Strany
1–16
Časopis
COMPUTER SPEECH AND LANGUAGE, roč. 71, č. 101254, ISSN 0885-2308
DOI
UT WoS
000761599000019
EID Scopus
BibTeX
@article{BUT175852,
  author="Federico Nicolás {Landini} and Ján {Profant} and Mireia {Diez Sánchez} and Lukáš {Burget}",
  title="Bayesian HMM clustering of x-vector sequences (VBx) in speaker diarization: Theory, implementation and analysis on standard tasks",
  journal="COMPUTER SPEECH AND LANGUAGE",
  year="2022",
  volume="71",
  number="101254",
  pages="1--16",
  doi="10.1016/j.csl.2021.101254",
  issn="0885-2308",
  url="https://www.sciencedirect.com/science/article/pii/S0885230821000619"
}
Nahoru