Detail publikace

Optimizing Bayesian Hmm Based X-Vector Clustering for the Second Dihard Speech Diarization Challenge

DIEZ SÁNCHEZ, M.; BURGET, L.; LANDINI, F.; WANG, S.; ČERNOCKÝ, J. Optimizing Bayesian Hmm Based X-Vector Clustering for the Second Dihard Speech Diarization Challenge. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Barcelona: IEEE Signal Processing Society, 2020. p. 6519-6523. ISBN: 978-1-5090-6631-5.
Název česky
Optimalizace bayesovského shlukování x-vektorů založených na HMM pro druhou soutěž DIHARD v diarizaci řeči
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

Speaker Diarization, Variational Bayes, HMM, x-vector, DIHARD

Abstrakt

Tento článek představuje analýzu našeho diarizačního systému, který  vyhrál druhou soutěž DIHARD v diarizaci řeči, běh 1. Tento systém je založen na shlukování x-vektorových speaker embeddings extrahovaných každých 0,25 s z krátkých segmentů vstupního záznamu. V tomto článku jsme se zaměřili na dva x-vektory použité shlukovací metody, jmenovitě Aglomerační hierarchie klastrování následované klastrováním založeným na Bayesiánu Skrytý Markovův model (BHMM). I když systém podaný do soutěže podstoupil další kroky po zpracování, ukážeme, že použití jen tohoto BHMM stačí k dosažení nejlepšího výkonu v této soutěži.

Rok
2020
Strany
6519–6523
Sborník
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
Konference
2020 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), Barcelona, ES
ISBN
978-1-5090-6631-5
Vydavatel
IEEE Signal Processing Society
Místo
Barcelona
DOI
UT WoS
000615970406156
EID Scopus
BibTeX
@inproceedings{BUT163963,
  author="Mireia {Diez Sánchez} and Lukáš {Burget} and Federico Nicolás {Landini} and Shuai {Wang} and Jan {Černocký}",
  title="Optimizing Bayesian Hmm Based X-Vector Clustering for the Second Dihard Speech Diarization Challenge",
  booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
  year="2020",
  pages="6519--6523",
  publisher="IEEE Signal Processing Society",
  address="Barcelona",
  doi="10.1109/ICASSP40776.2020.9053982",
  isbn="978-1-5090-6631-5",
  url="https://ieeexplore.ieee.org/document/9053982"
}
Nahoru