Detail publikace
Improving Noise Robustness of Automatic Speech Recognition via Parallel Data and Teacher-student Learning
WU, M.
RAJU, A.
PARTHASARATHI, S.
KUMATANI, K.
SUNDARAM, S.
MAAS, R.
HOFFMEISTER, B.
automatic speech recognition, noise robustness, teacher-student training, domain adaptation
Pro aplikace rozpoznávání řeči v reálném světě je robustnost hluku stále výzvou. V této práci přijímáme techniku učení učitele (T / S) využívající paralelní čistý a hlučný korpus pro zlepšení výkonu automatického rozpoznávání řeči (ASR) pod multimediálním šumem. Navíc používáme metodu výběru logitů, která zachovává pouze nejvyšší hodnoty k, abychom zabránili nesprávnému zdůraznění znalostí učitele a snížili šířku pásma potřebnou pro přenos dat. Začlenili jsme až 8 000 hodin nepřepisovaných dat pro trénink a prezentujeme naše výsledky na sekvenčně trénovaných modelech kromě těch, které byly vyškoleny na křížovou entropii. Nejlepší studentský model se sekvenčním tréninkem přináší snížení relativní chybovosti slov (WER) přibližně o 10,1%, 28,7% a 19,6% na našich čistých, simulovaných hlučných a reálných testovacích sadách ve srovnání se sekvenčně vyškoleným učitelem.
@inproceedings{BUT160006,
author="MOŠNER, L. and WU, M. and RAJU, A. and PARTHASARATHI, S. and KUMATANI, K. and SUNDARAM, S. and MAAS, R. and HOFFMEISTER, B.",
title="Improving Noise Robustness of Automatic Speech Recognition via Parallel Data and Teacher-student Learning",
booktitle="Proceedings of ICASSP",
year="2019",
pages="6475--6479",
publisher="IEEE Signal Processing Society",
address="Brighton",
doi="10.1109/ICASSP.2019.8683422",
isbn="978-1-5386-4658-8",
url="https://ieeexplore.ieee.org/document/8683422"
}