Detail publikace
Discriminative Training of VBx Diarization
DIEZ SÁNCHEZ, M.
Landini Federico Nicolás, Ph.D. (VZ SPEECH)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Silnova Anna, M.Sc., Ph.D. (UPGM)
Delcroix Marc
TAWARA, N.
speaker diarization, VBx, clustering, variational Bayes, discriminative training
Bayesovské HMM shlukování x-vektorových sekvencí (VBx) se stalo široce přijatým
základním modelem diarizace v publikacích a výzvách. Používá HMM k modelování
obratů reproduktorů, generativně trénovanou pravděpodobnostní lineární
diskriminační analýzu (PLDA) pro modelování distribuce mluvčích a Bayesovu
inferenci k odhadu přiřazení x-vektorů mluvčím. Tento článek představuje nový
rámec pro aktualizaci parametrů VBx pomocí diskriminačního tréninku, který přímo
optimalizuje předem definovanou ztrátu. Navrhujeme také novou ztrátu, která lépe
koreluje s chybovostí diarizování ve srovnání s binární křížovou entropií -
výchozí volba pro diarizační end-to-end systémy. Výsledky důkazu konceptu napříč
třemi datovými sadami (AMI, CALLHOME a DIHARD II) demonstrují schopnost metody
automaticky vyhledávat hyperparametry a dosahovat srovnatelného výkonu s těmi,
které byly nalezeny při rozsáhlém vyhledávání v mřížce, což obvykle vyžaduje
další znalosti chování hyperparametrů. Navíc ukazujeme, že diskriminační jemné
doladění PLDA může dále zlepšit výkon modelu. S touto publikací zveřejňujeme
zdrojový kód.
@inproceedings{BUT189781,
author="KLEMENT, D. and DIEZ SÁNCHEZ, M. and LANDINI, F. and BURGET, L. and SILNOVA, A. and DELCROIX, M. and TAWARA, N.",
title="Discriminative Training of VBx Diarization",
booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
year="2024",
pages="11871--11875",
publisher="IEEE Signal Processing Society",
address="Seoul",
doi="10.1109/ICASSP48485.2024.10446119",
isbn="979-8-3503-4485-1",
url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10446119"
}