Detail publikace
BCN2BRNO: ASR System Fusion for Albayzin 2020 Speech to Text Challenge
CÁMBARA, G.
Luque Jordi (FIT)
BONET, D.
FARRÚS, M.
Karafiát Martin, Ing., Ph.D. (UPGM)
Veselý Karel, Ing., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)
fúze, end-to-end model, hybridní model, semisupervised, automatické rozpoznávání řeči, konvoluční neuronová síť.
Tento článek popisuje společné úsilí VUT a Telefónica Research na vývoji systémů automatického rozpoznávání řeči pro výzvu Albayzin 2020. Porovnáváme přístupy založené buď na hybridních nebo end-to-end modelech. V hybridním modelování zkoumáme dopad vrstvy SpecAugment na výkon. Pro modelování typu end-to-end jsme použili konvoluční neuronovou síť s uzavřenými lineárními jednotkami (GLU). Výkon takového modelu je také hodnocen pomocí dalšího n-gramového jazykového modelu pro zlepšení míry chyb slov. Dále kontrolujeme metody separace zdrojů, abychom extrahovali řeč z hlučného prostředí (tj. Televizních pořadů). Přesněji hodnotíme účinek použití hudebního oddělovače na neurální bázi s názvem Demucs. Fúze našich nejlepších systémů dosáhla 23,33% WER v oficiálních hodnoceních Albayzin 2020. Kromě technik používaných v našich konečných předložených systémech také popisujeme naše úsilí při získávání vysoce kvalitních přepisů pro školení.
@inproceedings{BUT175823,
author="KOCOUR, M. and CÁMBARA, G. and LUQUE, J. and BONET, D. and FARRÚS, M. and KARAFIÁT, M. and VESELÝ, K. and ČERNOCKÝ, J.",
title="BCN2BRNO: ASR System Fusion for Albayzin 2020 Speech to Text Challenge",
booktitle="Proceedings of IberSPEECH 2021",
year="2021",
pages="113--117",
publisher="International Speech Communication Association",
address="Vallaloid",
doi="10.21437/IberSPEECH.2021-24",
url="https://www.isca-speech.org/archive/iberspeech_2021/kocour21_iberspeech.html"
}