Detail publikace

Discriminative Training of VBx Diarization

KLEMENT, D.; DIEZ SÁNCHEZ, M.; LANDINI, F.; BURGET, L.; SILNOVA, A.; DELCROIX, M.; TAWARA, N. Discriminative Training of VBx Diarization. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Seoul: IEEE Signal Processing Society, 2024. p. 11871-11875. ISBN: 979-8-3503-4485-1.
Název česky
Diskriminativní trénování VBx diarizace mluvčích
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Klement Dominik, Bc. (UPGM)
DIEZ SÁNCHEZ, M.
Landini Federico Nicolás, Ph.D. (VZ SPEECH)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Silnova Anna, M.Sc., Ph.D. (UPGM)
Delcroix Marc
TAWARA, N.
URL
Klíčová slova

speaker diarization, VBx, clustering, variational Bayes, discriminative training

Abstrakt

Bayesovské HMM shlukování x-vektorových sekvencí (VBx) se stalo široce přijatým
základním modelem diarizace v publikacích a výzvách. Používá HMM k modelování
obratů reproduktorů, generativně trénovanou pravděpodobnostní lineární
diskriminační analýzu (PLDA) pro modelování distribuce mluvčích a Bayesovu
inferenci k odhadu přiřazení x-vektorů mluvčím. Tento článek představuje nový
rámec pro aktualizaci parametrů VBx pomocí diskriminačního tréninku, který přímo
optimalizuje předem definovanou ztrátu. Navrhujeme také novou ztrátu, která lépe
koreluje s chybovostí diarizování ve srovnání s binární křížovou entropií -
výchozí volba pro diarizační end-to-end systémy. Výsledky důkazu konceptu napříč
třemi datovými sadami (AMI, CALLHOME a DIHARD II) demonstrují schopnost metody
automaticky vyhledávat hyperparametry a dosahovat srovnatelného výkonu s těmi,
které byly nalezeny při rozsáhlém vyhledávání v mřížce, což obvykle vyžaduje
další znalosti chování hyperparametrů. Navíc ukazujeme, že diskriminační jemné
doladění PLDA může dále zlepšit výkon modelu. S touto publikací zveřejňujeme
zdrojový kód.

Rok
2024
Strany
11871–11875
Sborník
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
Konference
Mezinárodní konference o akustice řeči..., Seoul, KR
ISBN
979-8-3503-4485-1
Vydavatel
IEEE Signal Processing Society
Místo
Seoul
DOI
EID Scopus
BibTeX
@inproceedings{BUT189781,
  author="KLEMENT, D. and DIEZ SÁNCHEZ, M. and LANDINI, F. and BURGET, L. and SILNOVA, A. and DELCROIX, M. and TAWARA, N.",
  title="Discriminative Training of VBx Diarization",
  booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
  year="2024",
  pages="11871--11875",
  publisher="IEEE Signal Processing Society",
  address="Seoul",
  doi="10.1109/ICASSP48485.2024.10446119",
  isbn="979-8-3503-4485-1",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10446119"
}
Soubory
Nahoru