Detail publikace

Discriminative Training of VBx Diarization

KLEMENT, D.; DIEZ SÁNCHEZ, M.; LANDINI, F.; BURGET, L.; SILNOVA, A.; DELCROIX, M.; TAWARA, N. Discriminative Training of VBx Diarization. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Seoul: IEEE Signal Processing Society, 2024. p. 11871-11875. ISBN: 979-8-3503-4485-1.
Název česky
Diskriminativní trénování VBx diarizace mluvčích
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

speaker diarization, VBx, clustering, variational Bayes, discriminative training

Abstrakt

Bayesovské HMM shlukování x-vektorových sekvencí (VBx) se stalo široce přijatým základním modelem diarizace v publikacích a výzvách. Používá HMM k modelování obratů reproduktorů, generativně trénovanou pravděpodobnostní lineární diskriminační analýzu (PLDA) pro modelování distribuce mluvčích a Bayesovu inferenci k odhadu přiřazení x-vektorů mluvčím. Tento článek představuje nový rámec pro aktualizaci parametrů VBx pomocí diskriminačního tréninku, který přímo optimalizuje předem definovanou ztrátu. Navrhujeme také novou ztrátu, která lépe koreluje s chybovostí diarizování ve srovnání s binární křížovou entropií - výchozí volba pro diarizační end-to-end systémy. Výsledky důkazu konceptu napříč třemi datovými sadami (AMI, CALLHOME a DIHARD II) demonstrují schopnost metody automaticky vyhledávat hyperparametry a dosahovat srovnatelného výkonu s těmi, které byly nalezeny při rozsáhlém vyhledávání v mřížce, což obvykle vyžaduje další znalosti chování hyperparametrů. Navíc ukazujeme, že diskriminační jemné doladění PLDA může dále zlepšit výkon modelu. S touto publikací zveřejňujeme zdrojový kód.

Rok
2024
Strany
11871–11875
Sborník
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
ISBN
979-8-3503-4485-1
Vydavatel
IEEE Signal Processing Society
Místo
Seoul
DOI
EID Scopus
BibTeX
@inproceedings{BUT189781,
  author="KLEMENT, D. and DIEZ SÁNCHEZ, M. and LANDINI, F. and BURGET, L. and SILNOVA, A. and DELCROIX, M. and TAWARA, N.",
  title="Discriminative Training of VBx Diarization",
  booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
  year="2024",
  pages="11871--11875",
  publisher="IEEE Signal Processing Society",
  address="Seoul",
  doi="10.1109/ICASSP48485.2024.10446119",
  isbn="979-8-3503-4485-1",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10446119"
}
Nahoru