Detail publikace
On the use of DNN Autoencoder for Robust Speaker Recognition
Matějka Pavel, Ing., Ph.D. (UPGM)
Plchot Oldřich, Ing., Ph.D. (UPGM)
Glembek Ondřej, Ing., Ph.D. (VZ SPEECH)
speaker recognition, signal enhancement, autoencoder
V tomto článku předkládáme analýzu autoencoderu založeného na DNN pro zlepšení řeči, odzvučení a odhlučení. Cílovou aplikací je robustní systém rozpoznávání mluvčího. Začali jsme rozšířením Fisherovy databáze o uměle hlučná a dozvučená data a vycvičili jsme autoencoder, aby mapoval hlučnou a dozvukovou řeč do své čisté verze. Používáme autoencoder jako krok předzpracování pro nejmodernější textově nezávislý systém rozpoznávání mluvčích. Výsledky porovnáváme s čistým vylepšením autoencoderu, multi-kondičním PLDA tréninkem a jejich současným použitím. Představujeme podrobnou analýzu s různými podmínkami NIST SRE 2010, PRISM a uměle poškozeným telefonním stavem NIST SRE 2010. Došli jsme k závěru, že navrhované předzpracování významně převyšuje základní linii a že tuto techniku lze použít k vybudování robustního systému rozpoznávání mluvčích pro dozvuk a hlučná data.
@techreport{BUT161935,
author="Ondřej {Novotný} and Pavel {Matějka} and Oldřich {Plchot} and Ondřej {Glembek}",
title="On the use of DNN Autoencoder for Robust Speaker Recognition",
year="2018",
publisher="Faculty of Information Technology BUT",
address="Brno",
pages="1--5",
url="https://www.fit.vut.cz/research/publication/11855/"
}