Detail publikace

Discriminative Training of VBx Diarization

KLEMENT, D.; DIEZ SÁNCHEZ, M.; LANDINI, F.; BURGET, L.; SILNOVA, A.; DELCROIX, M.; TAWARA, N. Discriminative Training of VBx Diarization. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Seoul: IEEE Signal Processing Society, 2024. p. 11871-11875. ISBN: 979-8-3503-4485-1.

Název česky

Diskriminativní trénování VBx diarizace mluvčích

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Klement Dominik, Bc. (UPGM)
DIEZ SÁNCHEZ, M.
Landini Federico Nicolás, Ph.D. (VZ SPEECH)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Silnova Anna, M.Sc., Ph.D. (UPGM)
Delcroix Marc
TAWARA, N.

URL

Klíčová slova

speaker diarization, VBx, clustering, variational Bayes, discriminative training

Abstrakt

Bayesovské HMM shlukování x-vektorových sekvencí (VBx) se stalo široce přijatým
základním modelem diarizace v publikacích a výzvách. Používá HMM k modelování
obratů reproduktorů, generativně trénovanou pravděpodobnostní lineární
diskriminační analýzu (PLDA) pro modelování distribuce mluvčích a Bayesovu
inferenci k odhadu přiřazení x-vektorů mluvčím. Tento článek představuje nový
rámec pro aktualizaci parametrů VBx pomocí diskriminačního tréninku, který přímo
optimalizuje předem definovanou ztrátu. Navrhujeme také novou ztrátu, která lépe
koreluje s chybovostí diarizování ve srovnání s binární křížovou entropií -
výchozí volba pro diarizační end-to-end systémy. Výsledky důkazu konceptu napříč
třemi datovými sadami (AMI, CALLHOME a DIHARD II) demonstrují schopnost metody
automaticky vyhledávat hyperparametry a dosahovat srovnatelného výkonu s těmi,
které byly nalezeny při rozsáhlém vyhledávání v mřížce, což obvykle vyžaduje
další znalosti chování hyperparametrů. Navíc ukazujeme, že diskriminační jemné
doladění PLDA může dále zlepšit výkon modelu. S touto publikací zveřejňujeme
zdrojový kód.

Rok

2024

Strany

11871–11875

Sborník

ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings

Konference

Mezinárodní konference o akustice řeči..., Seoul, KR

ISBN

979-8-3503-4485-1

Vydavatel

IEEE Signal Processing Society

Místo

Seoul

DOI

10.1109/ICASSP48485.2024.10446119

EID Scopus

2-s2.0-85195386292

BibTeX

@inproceedings{BUT189781,
  author="KLEMENT, D. and DIEZ SÁNCHEZ, M. and LANDINI, F. and BURGET, L. and SILNOVA, A. and DELCROIX, M. and TAWARA, N.",
  title="Discriminative Training of VBx Diarization",
  booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
  year="2024",
  pages="11871--11875",
  publisher="IEEE Signal Processing Society",
  address="Seoul",
  doi="10.1109/ICASSP48485.2024.10446119",
  isbn="979-8-3503-4485-1",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10446119"
}

Soubory

pdf klement_icassp2024_Discriminative_Training_of_VBx_Diarization.pdf 945 kB