Detail publikace

Analysis and Optimization of Bottleneck Features for Speaker Recognition

LOZANO DÍEZ, A.; SILNOVA, A.; MATĚJKA, P.; GLEMBEK, O.; PLCHOT, O.; PEŠÁN, J.; BURGET, L.; GONZALEZ-RODRIGUEZ, J. Analysis and Optimization of Bottleneck Features for Speaker Recognition. In Proceedings of Odyssey 2016. Proceedings of Odyssey: The Speaker and Language Recognition Workshop Odyssey 2014, Joensuu, Finland. Bilbao: International Speech Communication Association, 2016. p. 352-357. ISSN: 2312-2846.
Název česky
Analýza a optimalizace bottle-neck parametrů pro rozpoznávání mluvčího
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Lozano Díez Alicia, Ph.D.
Silnova Anna, M.Sc., Ph.D. (UPGM)
Matějka Pavel, Ing., Ph.D. (UPGM)
Glembek Ondřej, Ing., Ph.D.
Plchot Oldřich, Ing., Ph.D. (UPGM)
Pešán Jan, Ing. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Gonzalez-Rodriguez Joaquin (FIT)
URL
Klíčová slova

bottleneck features, speaker recognition

Abstrakt

V poslední době se funkce rozpoznávání překážek na bázi Deep Neural Network (DNN) ukázaly jako velmi účinné při rozpoznávání mluvčích na základě i-vektorů. Extrakce funkce úzkého místa je však obvykle plně optimalizována pro úlohu řeči, nikoli pro rozpoznávání řečníků. V tomto článku zkoumáme, zda DNN suboptimální pro rozpoznávání řeči mohou poskytnout lepší překážkové funkce pro rozpoznávání řečníků. Experimentujeme s různými funkcemi optimalizovanými pro rozpoznávání řeči nebo mluvčích jako vstupu do DNN. Experimentujeme také s nedostatečně vyškoleným DNN, kde bylo školení přerušeno před úplnou konvergencí cíle rozpoznávání řeči. Kromě toho analyzujeme účinek normalizace funkcí na vstupu a / nebo na výstupu extrakce funkcí úzkého hrdla, abychom zjistili, jak to ovlivní výkon systému rozpoznávání konečného mluvčího. Vyhodnotili jsme systémy v SRE10, podmínka 5, ženská úloha. Výsledky ukazují, že nejlepší konfigurace DNN, pokud jde o přesnost telefonu, neznamená lepší výkon systému konečného rozpoznávání mluvčích. Nakonec porovnáme výkon funkcí úzkých míst a standardní funkce MFCC v systému rozpoznávání mluvčích i-vector / PLDA. Nejlepší funkce úzkého profilu přinášejí až 37% relativního zlepšení, pokud jde o EER.

Rok
2016
Strany
352–357
Časopis
Proceedings of Odyssey: The Speaker and Language Recognition Workshop Odyssey 2014, Joensuu, Finland, roč. 2016, č. 06, ISSN 2312-2846
Sborník
Proceedings of Odyssey 2016
Vydavatel
International Speech Communication Association
Místo
Bilbao
DOI
EID Scopus
BibTeX
@inproceedings{BUT131002,
  author="Alicia {Lozano Díez} and Anna {Silnova} and Pavel {Matějka} and Ondřej {Glembek} and Oldřich {Plchot} and Jan {Pešán} and Lukáš {Burget} and Joaquin {Gonzalez-Rodriguez}",
  title="Analysis and Optimization of Bottleneck Features for Speaker Recognition",
  booktitle="Proceedings of Odyssey 2016",
  year="2016",
  journal="Proceedings of Odyssey: The Speaker and Language Recognition Workshop Odyssey 2014, Joensuu, Finland",
  volume="2016",
  number="06",
  pages="352--357",
  publisher="International Speech Communication Association",
  address="Bilbao",
  doi="10.21437/Odyssey.2016-51",
  issn="2312-2846",
  url="http://www.odyssey2016.org/papers/pdfs_stamped/54.pdf"
}
Nahoru