Detail publikace

13 years of speaker recognition research at BUT, with longitudinal analysis of NIST SRE

MATĚJKA, P.; PLCHOT, O.; GLEMBEK, O.; BURGET, L.; ROHDIN, J.; ZEINALI, H.; MOŠNER, L.; SILNOVA, A.; NOVOTNÝ, O.; DIEZ SÁNCHEZ, M.; ČERNOCKÝ, J. 13 years of speaker recognition research at BUT, with longitudinal analysis of NIST SRE. COMPUTER SPEECH AND LANGUAGE, 2020, vol. 2020, no. 63, p. 1-15. ISSN: 0885-2308.

Název česky

13 let výzkumu rozpoznávání řečníka na VUT s dlouhodobou analýzou na NIST SRE

Typ

článek v časopise

Jazyk

anglicky

Autoři

Matějka Pavel, Ing., Ph.D. (UPGM)
Plchot Oldřich, Ing., Ph.D. (UPGM)
Glembek Ondřej, Ing., Ph.D.
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Rohdin Johan Andréas, M.Sc., Ph.D. (UPGM)
Zeinali Hossein, Ph.D. (UPGM)
Mošner Ladislav, Ing. (UPGM)
Silnova Anna, M.Sc., Ph.D. (UPGM)
Novotný Ondřej, Ing., Ph.D.
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)

URL

Klíčová slova

Speaker recognition, NIST, Evaluations, GMM, Eigen-channel, compensation, JFA, I-vectors, DNN Embedding, X-vectors

Abstrakt

V tomto článku představujeme stručnou historii a "dlouhodobou studii" všech důležitých technik modelování používaných při rozpoznávání řečníka nezávislého na textu, od doby kdy se VUT v Brně poprvé v roce 2006 zúčastnilo evaluace rozpoznávání řečníků NIST (SRE) - GMM MAP, GMM MAP s přizpůsobením na kanál, JFA, i-vektoru a DNN (x-vektor). Aby se zdůraznil historický kontext, jsou techniky vyhodnocovány na všech sadách NIST SRE od roku 2004 s ohledem na čas, tj. systém je vždy trénován s využitím všech dostupných dat k danému roku evaluace. Vzhledem k tomu, že audiovizuální obsah v dnešní době dominuje internetu, tak do hodnocení našich systémů zařazujeme i datové sady Speakers In The Wild (SITW) a VOiCES. Nejen, že předkládáme srovnání technik modelování, ale také ukazujeme účinek vzorkovací frekvence.

Rok

2020

Strany

1–15

Časopis

COMPUTER SPEECH AND LANGUAGE, roč. 2020, č. 63, ISSN 0885-2308

DOI

10.1016/j.csl.2019.101035

UT WoS

000534481900003

EID Scopus

2-s2.0-85080857173

BibTeX

@article{BUT162674,
  author="Pavel {Matějka} and Oldřich {Plchot} and Ondřej {Glembek} and Lukáš {Burget} and Johan Andréas {Rohdin} and Hossein {Zeinali} and Ladislav {Mošner} and Anna {Silnova} and Ondřej {Novotný} and Mireia {Diez Sánchez} and Jan {Černocký}",
  title="13 years of speaker recognition research at BUT, with longitudinal analysis of NIST SRE",
  journal="COMPUTER SPEECH AND LANGUAGE",
  year="2020",
  volume="2020",
  number="63",
  pages="1--15",
  doi="10.1016/j.csl.2019.101035",
  issn="0885-2308",
  url="https://www.sciencedirect.com/science/article/pii/S0885230819302797?via%3Dihub"
}