Detail publikace
Discriminative Training of VBx Diarization
DIEZ SÁNCHEZ, M.
Landini Federico Nicolás (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Silnova Anna, M.Sc., Ph.D. (UPGM)
Delcroix Marc (FIT)
TAWARA, N.
speaker diarization, VBx, clustering, variational Bayes, discriminative training
Bayesovské HMM shlukování x-vektorových sekvencí (VBx) se stalo široce přijatým základním modelem diarizace v publikacích a výzvách. Používá HMM k modelování obratů reproduktorů, generativně trénovanou pravděpodobnostní lineární diskriminační analýzu (PLDA) pro modelování distribuce mluvčích a Bayesovu inferenci k odhadu přiřazení x-vektorů mluvčím. Tento článek představuje nový rámec pro aktualizaci parametrů VBx pomocí diskriminačního tréninku, který přímo optimalizuje předem definovanou ztrátu. Navrhujeme také novou ztrátu, která lépe koreluje s chybovostí diarizování ve srovnání s binární křížovou entropií - výchozí volba pro diarizační end-to-end systémy. Výsledky důkazu konceptu napříč třemi datovými sadami (AMI, CALLHOME a DIHARD II) demonstrují schopnost metody automaticky vyhledávat hyperparametry a dosahovat srovnatelného výkonu s těmi, které byly nalezeny při rozsáhlém vyhledávání v mřížce, což obvykle vyžaduje další znalosti chování hyperparametrů. Navíc ukazujeme, že diskriminační jemné doladění PLDA může dále zlepšit výkon modelu. S touto publikací zveřejňujeme zdrojový kód.
@inproceedings{BUT189781,
author="KLEMENT, D. and DIEZ SÁNCHEZ, M. and LANDINI, F. and BURGET, L. and SILNOVA, A. and DELCROIX, M. and TAWARA, N.",
title="Discriminative Training of VBx Diarization",
booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
year="2024",
pages="11871--11875",
publisher="IEEE Signal Processing Society",
address="Seoul",
doi="10.1109/ICASSP48485.2024.10446119",
isbn="979-8-3503-4485-1",
url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10446119"
}