Detail publikace
13 years of speaker recognition research at BUT, with longitudinal analysis of NIST SRE
Plchot Oldřich, Ing., Ph.D. (UPGM)
Glembek Ondřej, Ing., Ph.D.
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Rohdin Johan Andréas, M.Sc., Ph.D. (UPGM)
Zeinali Hossein, Ph.D. (UPGM)
Mošner Ladislav, Ing. (UPGM)
Silnova Anna, M.Sc., Ph.D. (UPGM)
Novotný Ondřej, Ing., Ph.D.
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)
Speaker recognition, NIST, Evaluations, GMM, Eigen-channel, compensation, JFA, I-vectors, DNN Embedding, X-vectors
V tomto článku představujeme stručnou historii a "dlouhodobou studii" všech důležitých technik modelování používaných při rozpoznávání řečníka nezávislého na textu, od doby kdy se VUT v Brně poprvé v roce 2006 zúčastnilo evaluace rozpoznávání řečníků NIST (SRE) - GMM MAP, GMM MAP s přizpůsobením na kanál, JFA, i-vektoru a DNN (x-vektor). Aby se zdůraznil historický kontext, jsou techniky vyhodnocovány na všech sadách NIST SRE od roku 2004 s ohledem na čas, tj. systém je vždy trénován s využitím všech dostupných dat k danému roku evaluace. Vzhledem k tomu, že audiovizuální obsah v dnešní době dominuje internetu, tak do hodnocení našich systémů zařazujeme i datové sady Speakers In The Wild (SITW) a VOiCES. Nejen, že předkládáme srovnání technik modelování, ale také ukazujeme účinek vzorkovací frekvence.
@article{BUT162674,
author="Pavel {Matějka} and Oldřich {Plchot} and Ondřej {Glembek} and Lukáš {Burget} and Johan Andréas {Rohdin} and Hossein {Zeinali} and Ladislav {Mošner} and Anna {Silnova} and Ondřej {Novotný} and Mireia {Diez Sánchez} and Jan {Černocký}",
title="13 years of speaker recognition research at BUT, with longitudinal analysis of NIST SRE",
journal="COMPUTER SPEECH AND LANGUAGE",
year="2020",
volume="2020",
number="63",
pages="1--15",
doi="10.1016/j.csl.2019.101035",
issn="0885-2308",
url="https://www.sciencedirect.com/science/article/pii/S0885230819302797?via%3Dihub"
}