Detail publikace
Bayesian HMM based x-vector clustering for Speaker Diarization
DIEZ SÁNCHEZ, M.; BURGET, L.; WANG, S.; ROHDIN, J.; ČERNOCKÝ, J. Bayesian HMM based x-vector clustering for Speaker Diarization. In Proceedings of Interspeech. Proceedings of Interspeech. Graz: International Speech Communication Association, 2019. p. 346-350. ISSN: 1990-9772.
Název česky
Bayesovské shlukování x-vektorů založené na HMM pro diarizaci
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Diez Sánchez Mireia, M.Sc., Ph.D.
(UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Wang Shuai
Rohdin Johan Andréas, M.Sc., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Wang Shuai
Rohdin Johan Andréas, M.Sc., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)
URL
Klíčová slova
Speaker Diarization, Variational Bayes, HMM, x-vector, DIHARD
Abstrakt
Tento článek představuje zjednodušenou verzi dříve navrženého diarizačního algoritmu založeného na Bayesianových skrytých Markovových modelech, který využívá variační Bayesiánský závěr pro velmi rychlé a robustní shlukování x-vektoru (embeddingy mluvčích založené na neuronové síti). Prezentované výsledky ukazují, že tento shlukovací algoritmus poskytuje významné zlepšení v diarizačním výkonu ve srovnání s dříve používaným aglomerativním hierarchickým shlukováním. Výstup tohoto systému lze dále použít jako inicializaci pro druhý stupeň VB diarizačního systému pomocí rámcových funkcí MFCC jako vstupu, aby se získaly optimální výsledky.
Rok
2019
Strany
346–350
Časopis
Proceedings of Interspeech, roč. 2019, č. 9, ISSN 1990-9772
Sborník
Proceedings of Interspeech
Vydavatel
International Speech Communication Association
Místo
Graz
DOI
UT WoS
000831796400070
EID Scopus
BibTeX
@inproceedings{BUT159992,
author="Mireia {Diez Sánchez} and Lukáš {Burget} and Shuai {Wang} and Johan Andréas {Rohdin} and Jan {Černocký}",
title="Bayesian HMM based x-vector clustering for Speaker Diarization",
booktitle="Proceedings of Interspeech",
year="2019",
journal="Proceedings of Interspeech",
volume="2019",
number="9",
pages="346--350",
publisher="International Speech Communication Association",
address="Graz",
doi="10.21437/Interspeech.2019-2813",
issn="1990-9772",
url="https://www.isca-speech.org/archive/Interspeech_2019/pdfs/2813.pdf"
}