Bayesian HMM based x-vector clustering

Název česky

Bayesovské shlukování x-vektorů založené na HMM - VBx

Typ

software

Licence

ne - zdarma

Autoři

Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM FIT VUT)
Landini Federico Nicolás (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)

Popis

Úkolem diarizace je určit počet řečníků a kdo kdy mluví" pro mono-audionahrávku. Je součástí dolování dat z řeči. Navrhovaný software obsahuje úplnou implementaci Bayesovského přístupu k diarizaci řečníků využívající nízkodimenzionální neurální reprezentace řečníků (x-vektory) v jednotlivých segmentech. Navazuje na postup využitý VUT v Brně ve druhé DIHARD Diarization Challenge, kde systém VUT zvítězil v experimentální úloze Track 1. Software se skládá z výpočtu parametrů pomocí banky filtrů, výpočtu x-vektorů, provedení aglomerativního hierarchického shlukování na x-vektorech jako prvního kroku k vytvoření inicializace, aplikace variačního bayesovského HMM na x-vektorech pro vytvoření diarizačního výstupu a vyhodnocení tohoto výstupu. Software je napsán v Pythonu a zveřejněn jako open-source pod licencí Apache.

Umístění

https://github.com/BUTSpeechFIT/VBx

Projekty

IT4Innovations excellence in science (LQ1602)
Moderní metody zpracování, analýzy a zobrazování multimediálních a 3D dat (FIT-S-20-6460)
Neuronové reprezentace v multimodálním a mnohojazyčném modelování (GX19-26934X)
Robustní diarizace mluvčích pomocí Bayesovské inference a hlubokého učení ()

Výzkumné skupiny

Výzkumná skupina dolování dat z řeči BUT Speech@FIT (VZ SPEECH)

Pracoviště

Ústav počítačové grafiky a multimédií FIT VUT v Brně (UPGM FIT VUT)

Studijní oddělení

Bayesian HMM based x-vector clustering - VBx