Detail publikace

BCN2BRNO: ASR System Fusion for Albayzin 2020 Speech to Text Challenge

KOCOUR, M.; CÁMBARA, G.; LUQUE, J.; BONET, D.; FARRÚS, M.; KARAFIÁT, M.; VESELÝ, K.; ČERNOCKÝ, J. BCN2BRNO: ASR System Fusion for Albayzin 2020 Speech to Text Challenge. Proceedings of IberSPEECH 2021. Vallaloid: International Speech Communication Association, 2021. p. 113-117.
Název česky
BCN2BRNO: Fúze ASR systémů pro Albayzin 2020 Speech to Text Challenge
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

fúze, end-to-end model, hybridní model, semisupervised, automatické rozpoznávání řeči, konvoluční neuronová síť.

Abstrakt

Tento článek popisuje společné úsilí VUT a Telefónica Research na vývoji systémů automatického rozpoznávání řeči pro výzvu Albayzin 2020. Porovnáváme přístupy založené buď na hybridních nebo end-to-end modelech. V hybridním modelování zkoumáme dopad vrstvy SpecAugment na výkon. Pro modelování typu end-to-end jsme použili konvoluční neuronovou síť s uzavřenými lineárními jednotkami (GLU). Výkon takového modelu je také hodnocen pomocí dalšího n-gramového jazykového modelu pro zlepšení míry chyb slov. Dále kontrolujeme metody separace zdrojů, abychom extrahovali řeč z hlučného prostředí (tj. Televizních pořadů). Přesněji hodnotíme účinek použití hudebního oddělovače na neurální bázi s názvem Demucs. Fúze našich nejlepších systémů dosáhla 23,33% WER v oficiálních hodnoceních Albayzin 2020. Kromě technik používaných v našich konečných předložených systémech také popisujeme naše úsilí při získávání vysoce kvalitních přepisů pro školení.

Rok
2021
Strany
113–117
Sborník
Proceedings of IberSPEECH 2021
Vydavatel
International Speech Communication Association
Místo
Vallaloid
DOI
BibTeX
@inproceedings{BUT175823,
  author="KOCOUR, M. and CÁMBARA, G. and LUQUE, J. and BONET, D. and FARRÚS, M. and KARAFIÁT, M. and VESELÝ, K. and ČERNOCKÝ, J.",
  title="BCN2BRNO: ASR System Fusion for Albayzin 2020 Speech to Text Challenge",
  booktitle="Proceedings of IberSPEECH 2021",
  year="2021",
  pages="113--117",
  publisher="International Speech Communication Association",
  address="Vallaloid",
  doi="10.21437/IberSPEECH.2021-24",
  url="https://www.isca-speech.org/archive/iberspeech_2021/kocour21_iberspeech.html"
}
Nahoru