Detail publikace
Multi-Stream Extension of Variational Bayesian HMM Clustering (MS-VBx) for Combined End-to-End and Vector Clustering-based Diarization
TAWARA, N.
DIEZ SÁNCHEZ, M.
Landini Federico Nicolás (UPGM)
Silnova Anna, M.Sc., Ph.D. (UPGM)
Ogawa Atsunori (FIT)
Nakatani Tomohiro (FIT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
ARAKI, S.
speaker diarization, end-to-end, VBx, clustering
Kombinace end-to-end neurální diarizace reproduktoru (EEND) s vektorové shlukování (VC), známé jako EEND-VC, si získalo zájem pro využití silných stránek obou metod. EEND-VC odhaduje aktivity a vložení reproduktorů pro všechny reproduktory v rámci audio bloku a používá VC k přidružení těchto aktivit s identitami mluvčích napříč různými bloky. EEND-VC generuje tak několik proudů vložení, jeden pro každý reproduktor v kuse. Tato vložení můžeme seskupovat pomocí constrained aglomerativní hierarchické shlukování (cAHC), zajišťující vložení ze stejného bloku patří do různých shluků. Tento článek představuje alternativní přístup ke shlukování, a multi-streamové rozšíření úspěšného Bayesian HMM clusteringu x-vektorů (VBx), nazývaných MS-VBx. Experimenty na tři datové sady ukazují, že MS-VBx překonává cAHC v výkon diaizace a počítání řečníků
@inproceedings{BUT185573,
author="DELCROIX, M. and TAWARA, N. and DIEZ SÁNCHEZ, M. and LANDINI, F. and SILNOVA, A. and OGAWA, A. and NAKATANI, T. and BURGET, L. and ARAKI, S.",
title="Multi-Stream Extension of Variational Bayesian HMM Clustering (MS-VBx) for Combined End-to-End and Vector Clustering-based Diarization",
booktitle="Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
year="2023",
journal="Proceedings of Interspeech",
volume="2023",
number="08",
pages="3477--3481",
publisher="International Speech Communication Association",
address="Dublin",
doi="10.21437/Interspeech.2023-628",
issn="1990-9772",
url="https://www.isca-speech.org/archive/pdfs/interspeech_2023/delcroix23_interspeech.pdf"
}