Detail publikace

Audio Enhancing With DNN Autoencoder For Speaker Recognition

PLCHOT, O.; BURGET, L.; ARONOWITZ, H.; MATĚJKA, P. Audio Enhancing With DNN Autoencoder For Speaker Recognition. In Proceedings of the 41th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2016), 2016. Shanghai: IEEE Signal Processing Society, 2016. p. 5090-5094. ISBN: 978-1-4799-9988-0.
Název česky
Obohacování audia pomocí DNN autoenkodéru pro rozpoznávání mluvčího
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

rozpoznávání mluvčího, denoising, de-reverbation, neuronové sítě, DNN

Abstrakt

V tomto příspěvku představujeme návrh autoenkodéru založeného na DNN pro vylepšení řeči a jeho použití pro systémy rozpoznávání mluvčích pro vzdálené mikrofony a hlučná data. Začali jsme s rozšířením databáze Fisher o uměle hlučná a dozvukovaná data a vyškolili jsme automatický kodér, aby namapoval hlučnou a dozvukovanou řeč na její čistou verzi. Autoencoder používáme jako krok předzpracování v pozdější fázi modelování v nejmodernějších systémech rozpoznávání mluvčích závislých na textu a nezávislých na textu. Uvádíme relativní vylepšení až o 50% pro systém závislý na textu a až 48% pro systém nezávislý na textu. U systému nezávislého na textu představujeme podrobnější analýzu různých podmínek NIST SRE 2010 a PRISM, což naznačuje, že navrhovaný preproces je slibným a účinným způsobem, jak vybudovat robustní systém rozpoznávání mluvčích pro vzdálený mikrofon a hlučná data.

Rok
2016
Strany
5090–5094
Sborník
Proceedings of the 41th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2016), 2016
ISBN
978-1-4799-9988-0
Vydavatel
IEEE Signal Processing Society
Místo
Shanghai
DOI
UT WoS
000388373405048
EID Scopus
BibTeX
@inproceedings{BUT130961,
  author="Oldřich {Plchot} and Lukáš {Burget} and Hagai {Aronowitz} and Pavel {Matějka}",
  title="Audio Enhancing With DNN Autoencoder For Speaker Recognition",
  booktitle="Proceedings of the 41th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2016), 2016",
  year="2016",
  pages="5090--5094",
  publisher="IEEE Signal Processing Society",
  address="Shanghai",
  doi="10.1109/ICASSP.2016.7472647",
  isbn="978-1-4799-9988-0",
  url="https://www.fit.vut.cz/research/publication/11139/"
}
Nahoru