Unsupervised Evaluation of Speaker Recognition System

Název česky

Evaluace systému na rozpoznávání mluvčího na neznámých datech

Jazyk práce

anglický

Abstrakt

Tato práce je vystavěna nad moderním systémem pro rozpoznávání mluvčího (SID) založeného na x-vektorech. Cílem bakalářské práce je navrhnout a experimentálně vyhodnotit techniky pro evaluaci SID systému za použití audio nahrávek bez anotace tj. bez znalosti mluvčího. Pro tento účel je z každé nahrávky bez anotace vytvořen embedding. Ty se poté používají pro shlukování nahrávek a následné vytvoření pseudo-anotací. Na těchto anotacích se SID systém evaluuje pomocí equal error rate (EER) metriky. Za účelem vytvoření pseudo-anotací byly navrženy tyto shlukovací algoritmy učení bez učitele: K-means, Gaussian mixture models (GMM) a aglomerativní shlukování. Po testování vyšel jakožto nejlepší experimentální postup K-means se Silhouette metrikou, která používá kosinovou podobnost jako míru vzdálenosti. Nejlepší metoda dosáhla 5,72 % EER s referenčním EER = 5,15 %, které bylo spočítané se znalostí anotace na části datasetu SITW dev-core-core. Podobné výsledky byly získány na části datasetu SITW eval-core-core s odhadnutým EER = 5,86 % a referenčním 5,08 %. Rozdíl mezi hodnotami tvoří 0,57 % pro eval-core-core a 0, 78% pro dev-core-core. Další testy na NIST SRE16 a VoxCeleb1 datasetech byly provedeny za účelem ověření správnosti navrženého postupu. Obecně se dá říct, že navržený testovací postup měl chybu přibližně 1 %, což je poměrně dobrý výsledek pro algoritmus učení bez učitele.

Klíčová slova

rozpoznávání mluvčího, verifikace mluvčího, učení bez učitele, shlukování, evaluace, GMM, AHC, EER, K-means

Ústav

Ústav počítačové grafiky a multimédií FIT VUT v Brně

Studijní program

Informační technologie

Soubory

Stav

obhájeno, hodnocení A

Obhajoba

15. června 2022

Oponent

Plchot Oldřich, Ing., Ph.D.

Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Otázky u obhajoby

In your work you focused on predicting the EER which is a calibration independent technique. Would you have some comments or results that would address the actual performance such as actual DCF as defined by NIST? In other words would you be able to estimate quality of calibration in an unsupervised way?

Komise

Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT), předseda
Bartík Vladimír, Ing., Ph.D. (UIFS FIT VUT), člen
Češka Milan, doc. RNDr., Ph.D. (UITS FIT VUT), člen
Jaroš Jiří, prof. Ing., Ph.D. (UPSY FIT VUT), člen
Orság Filip, Ing., Ph.D. (UITS FIT VUT), člen

Citace

ODEHNAL, Ondřej. Unsupervised Evaluation of Speaker Recognition System. Brno, 2022. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2022-06-15. Vedoucí práce Matějka Pavel. Dostupné z: https://www-dev.fit.vutbr.cz/study/thesis/24991/

BibTeX

@bachelorsthesis{FITBT24991,
    author = "Ond\v{r}ej Odehnal",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Unsupervised Evaluation of Speaker Recognition System",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2022,
    location = "Brno, CZ",
    language = "english",
    url = "https://www.fit.vut.cz/study/thesis/24991/"
}