Detail publikace
Audio Enhancing With DNN Autoencoder For Speaker Recognition
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Aronowitz Hagai (FIT)
Matějka Pavel, Ing., Ph.D. (UPGM)
rozpoznávání mluvčího, denoising, de-reverbation, neuronové sítě, DNN
V tomto příspěvku představujeme návrh autoenkodéru založeného na DNN pro vylepšení řeči a jeho použití pro systémy rozpoznávání mluvčích pro vzdálené mikrofony a hlučná data. Začali jsme s rozšířením databáze Fisher o uměle hlučná a dozvukovaná data a vyškolili jsme automatický kodér, aby namapoval hlučnou a dozvukovanou řeč na její čistou verzi. Autoencoder používáme jako krok předzpracování v pozdější fázi modelování v nejmodernějších systémech rozpoznávání mluvčích závislých na textu a nezávislých na textu. Uvádíme relativní vylepšení až o 50% pro systém závislý na textu a až 48% pro systém nezávislý na textu. U systému nezávislého na textu představujeme podrobnější analýzu různých podmínek NIST SRE 2010 a PRISM, což naznačuje, že navrhovaný preproces je slibným a účinným způsobem, jak vybudovat robustní systém rozpoznávání mluvčích pro vzdálený mikrofon a hlučná data.
@inproceedings{BUT130961,
author="Oldřich {Plchot} and Lukáš {Burget} and Hagai {Aronowitz} and Pavel {Matějka}",
title="Audio Enhancing With DNN Autoencoder For Speaker Recognition",
booktitle="Proceedings of the 41th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2016), 2016",
year="2016",
pages="5090--5094",
publisher="IEEE Signal Processing Society",
address="Shanghai",
doi="10.1109/ICASSP.2016.7472647",
isbn="978-1-4799-9988-0",
url="https://www.fit.vut.cz/research/publication/11139/"
}