Detail publikace
Analysis and Optimization of Bottleneck Features for Speaker Recognition
Silnova Anna, M.Sc., Ph.D. (UPGM)
Matějka Pavel, Ing., Ph.D. (UPGM)
Glembek Ondřej, Ing., Ph.D.
Plchot Oldřich, Ing., Ph.D. (UPGM)
Pešán Jan, Ing. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Gonzalez-Rodriguez Joaquin (FIT)
bottleneck features, speaker recognition
V poslední době se funkce rozpoznávání překážek na bázi Deep Neural Network (DNN) ukázaly jako velmi účinné při rozpoznávání mluvčích na základě i-vektorů. Extrakce funkce úzkého místa je však obvykle plně optimalizována pro úlohu řeči, nikoli pro rozpoznávání řečníků. V tomto článku zkoumáme, zda DNN suboptimální pro rozpoznávání řeči mohou poskytnout lepší překážkové funkce pro rozpoznávání řečníků. Experimentujeme s různými funkcemi optimalizovanými pro rozpoznávání řeči nebo mluvčích jako vstupu do DNN. Experimentujeme také s nedostatečně vyškoleným DNN, kde bylo školení přerušeno před úplnou konvergencí cíle rozpoznávání řeči. Kromě toho analyzujeme účinek normalizace funkcí na vstupu a / nebo na výstupu extrakce funkcí úzkého hrdla, abychom zjistili, jak to ovlivní výkon systému rozpoznávání konečného mluvčího. Vyhodnotili jsme systémy v SRE10, podmínka 5, ženská úloha. Výsledky ukazují, že nejlepší konfigurace DNN, pokud jde o přesnost telefonu, neznamená lepší výkon systému konečného rozpoznávání mluvčích. Nakonec porovnáme výkon funkcí úzkých míst a standardní funkce MFCC v systému rozpoznávání mluvčích i-vector / PLDA. Nejlepší funkce úzkého profilu přinášejí až 37% relativního zlepšení, pokud jde o EER.
@inproceedings{BUT131002,
author="Alicia {Lozano Díez} and Anna {Silnova} and Pavel {Matějka} and Ondřej {Glembek} and Oldřich {Plchot} and Jan {Pešán} and Lukáš {Burget} and Joaquin {Gonzalez-Rodriguez}",
title="Analysis and Optimization of Bottleneck Features for Speaker Recognition",
booktitle="Proceedings of Odyssey 2016",
year="2016",
journal="Proceedings of Odyssey: The Speaker and Language Recognition Workshop Odyssey 2014, Joensuu, Finland",
volume="2016",
number="06",
pages="352--357",
publisher="International Speech Communication Association",
address="Bilbao",
doi="10.21437/Odyssey.2016-51",
issn="2312-2846",
url="http://www.odyssey2016.org/papers/pdfs_stamped/54.pdf"
}