Detail publikace
Text-dependent speaker verification based on i-vectors, Neural Networks and Hidden Markov Models
Sameti Hossein (FIT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)
Deep Neural Network; Text-dependent; Speaker verification; i-Vector; Frame alignment; Bottleneck features
Inspirováni úspěchem Deep Neural Networks (DNN) v rozpoznávání řečníků nezávislých na textu jsme nedávno prokázali, že podobné myšlenky lze aplikovat také na ověřovací úlohu řečníka závislého na textu. V tomto článku popisujeme nové pokroky v našem nejmodernějším přístupu založeném na i-vektorech k verifikaci řečníka závislého na textu, který také využívá různé techniky DNN. Aby bylo možné shromáždit dostatečné statistiky pro extrakci i-vektorů, porovnávají se různé modely zarovnání rámců, jako jsou GMM, phonemic HMM nebo DNN trénované pro klasifikaci senonu. Rovněž experimentujeme s funkcemi úzkých míst založenými na DNN a jejich kombinacemi se standardními funkcemi MFCC. Experimentujeme s několika různými konfiguracemi DNN a zkoumáme důležitost tréninku DNN na 16kHz řeči. Výsledky jsou uvedeny v datové sadě RSR2015, kde je k dispozici školicí materiál pro všechny možné registrační a testovací fráze. Kromě toho vykazujeme výsledky také u náročnějších datových sad RedDots, kde je systém postaven skutečně nezávisle na frázi.
@article{BUT144474,
author="Hossein {Zeinali} and Hossein {Sameti} and Lukáš {Burget} and Jan {Černocký}",
title="Text-dependent speaker verification based on i-vectors, Neural Networks and Hidden Markov Models",
journal="COMPUTER SPEECH AND LANGUAGE",
year="2017",
volume="2017",
number="46",
pages="53--71",
doi="10.1016/j.csl.2017.04.005",
issn="0885-2308",
url="http://www.sciencedirect.com/science/article/pii/S0885230816303199"
}