Detail publikace

Multi-Stream Extension of Variational Bayesian HMM Clustering (MS-VBx) for Combined End-to-End and Vector Clustering-based Diarization

DELCROIX, M.; TAWARA, N.; DIEZ SÁNCHEZ, M.; LANDINI, F.; SILNOVA, A.; OGAWA, A.; NAKATANI, T.; BURGET, L.; ARAKI, S. Multi-Stream Extension of Variational Bayesian HMM Clustering (MS-VBx) for Combined End-to-End and Vector Clustering-based Diarization. In Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Proceedings of Interspeech. Dublin: International Speech Communication Association, 2023. p. 3477-3481. ISSN: 1990-9772.
Název česky
Víceproudové rozšíření variačního bayesovského HMM shlukování (MS-VBx) pro diarizaci kombinující end-to-end a shlukování vektorů
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Delcroix Marc (FIT)
TAWARA, N.
DIEZ SÁNCHEZ, M.
Landini Federico Nicolás (UPGM)
Silnova Anna, M.Sc., Ph.D. (UPGM)
Ogawa Atsunori (FIT)
Nakatani Tomohiro (FIT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
ARAKI, S.
URL
Klíčová slova

speaker diarization, end-to-end, VBx, clustering

Abstrakt

Kombinace end-to-end neurální diarizace reproduktoru (EEND) s vektorové shlukování (VC), známé jako EEND-VC, si získalo zájem pro využití silných stránek obou metod. EEND-VC odhaduje aktivity a vložení reproduktorů pro všechny reproduktory v rámci audio bloku a používá VC k přidružení těchto aktivit s identitami mluvčích napříč různými bloky. EEND-VC generuje tak několik proudů vložení, jeden pro každý reproduktor v kuse. Tato vložení můžeme seskupovat pomocí constrained aglomerativní hierarchické shlukování (cAHC), zajišťující vložení ze stejného bloku patří do různých shluků. Tento článek představuje alternativní přístup ke shlukování, a multi-streamové rozšíření úspěšného Bayesian HMM clusteringu x-vektorů (VBx), nazývaných MS-VBx. Experimenty na tři datové sady ukazují, že MS-VBx překonává cAHC v výkon diaizace a počítání řečníků

Rok
2023
Strany
3477–3481
Časopis
Proceedings of Interspeech, roč. 2023, č. 08, ISSN 1990-9772
Sborník
Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH
Vydavatel
International Speech Communication Association
Místo
Dublin
DOI
EID Scopus
BibTeX
@inproceedings{BUT185573,
  author="DELCROIX, M. and TAWARA, N. and DIEZ SÁNCHEZ, M. and LANDINI, F. and SILNOVA, A. and OGAWA, A. and NAKATANI, T. and BURGET, L. and ARAKI, S.",
  title="Multi-Stream Extension of Variational Bayesian HMM Clustering (MS-VBx) for Combined End-to-End and Vector Clustering-based Diarization",
  booktitle="Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
  year="2023",
  journal="Proceedings of Interspeech",
  volume="2023",
  number="08",
  pages="3477--3481",
  publisher="International Speech Communication Association",
  address="Dublin",
  doi="10.21437/Interspeech.2023-628",
  issn="1990-9772",
  url="https://www.isca-speech.org/archive/pdfs/interspeech_2023/delcroix23_interspeech.pdf"
}
Nahoru