Detail publikace

BCN2BRNO: ASR System Fusion for Albayzin 2020 Speech to Text Challenge

KOCOUR, M.; CÁMBARA, G.; LUQUE, J.; BONET, D.; FARRÚS, M.; KARAFIÁT, M.; VESELÝ, K.; ČERNOCKÝ, J. BCN2BRNO: ASR System Fusion for Albayzin 2020 Speech to Text Challenge. Proceedings of IberSPEECH 2021. Vallaloid: International Speech Communication Association, 2021. p. 113-117.

Název česky

BCN2BRNO: Fúze ASR systémů pro Albayzin 2020 Speech to Text Challenge

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Kocour Martin, Ing. (UPGM)
CÁMBARA, G.
Luque Jordi (FIT)
BONET, D.
FARRÚS, M.
Karafiát Martin, Ing., Ph.D. (UPGM)
Veselý Karel, Ing., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)

URL

Klíčová slova

fúze, end-to-end model, hybridní model, semisupervised, automatické rozpoznávání řeči, konvoluční neuronová síť.

Abstrakt

Tento článek popisuje společné úsilí VUT a Telefónica Research na vývoji systémů automatického rozpoznávání řeči pro výzvu Albayzin 2020. Porovnáváme přístupy založené buď na hybridních nebo end-to-end modelech. V hybridním modelování zkoumáme dopad vrstvy SpecAugment na výkon. Pro modelování typu end-to-end jsme použili konvoluční neuronovou síť s uzavřenými lineárními jednotkami (GLU). Výkon takového modelu je také hodnocen pomocí dalšího n-gramového jazykového modelu pro zlepšení míry chyb slov. Dále kontrolujeme metody separace zdrojů, abychom extrahovali řeč z hlučného prostředí (tj. Televizních pořadů). Přesněji hodnotíme účinek použití hudebního oddělovače na neurální bázi s názvem Demucs. Fúze našich nejlepších systémů dosáhla 23,33% WER v oficiálních hodnoceních Albayzin 2020. Kromě technik používaných v našich konečných předložených systémech také popisujeme naše úsilí při získávání vysoce kvalitních přepisů pro školení.

Rok

2021

Strany

113–117

Sborník

Proceedings of IberSPEECH 2021

Vydavatel

International Speech Communication Association

Místo

Vallaloid

DOI

10.21437/IberSPEECH.2021-24

BibTeX

@inproceedings{BUT175823,
  author="KOCOUR, M. and CÁMBARA, G. and LUQUE, J. and BONET, D. and FARRÚS, M. and KARAFIÁT, M. and VESELÝ, K. and ČERNOCKÝ, J.",
  title="BCN2BRNO: ASR System Fusion for Albayzin 2020 Speech to Text Challenge",
  booktitle="Proceedings of IberSPEECH 2021",
  year="2021",
  pages="113--117",
  publisher="International Speech Communication Association",
  address="Vallaloid",
  doi="10.21437/IberSPEECH.2021-24",
  url="https://www.isca-speech.org/archive/iberspeech_2021/kocour21_iberspeech.html"
}