Detail publikace

BCN2BRNO: ASR System Fusion for Albayzin 2022 Speech to Text Challenge

KOCOUR, M.; UMESH, J.; KARAFIÁT, M.; ŠVEC, J.; LOPEZ, F.; BENEŠ, K.; DIEZ SÁNCHEZ, M.; SZŐKE, I.; LUQUE, J.; VESELÝ, K.; BURGET, L.; ČERNOCKÝ, J. BCN2BRNO: ASR System Fusion for Albayzin 2022 Speech to Text Challenge. Proceedings of IberSpeech 2022. Granada: International Speech Communication Association, 2022. p. 276-280.
Název česky
BCN2BRNO: Fúze ASR systémů pro Albayzin 2022 Speech to Text Challenge
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

ASR fusion, end-to-end model, self-supervised learning, automatic speech recognition.

Abstrakt

Článek popisuje výzkum vývoje systémů automatického rozpoznávání řeči (ASR) pro soutěž Albayzin 2022. Byly natrénovány a vyhodnocovány jak hybridní systémy, tak ty založené na end-to-end modelech. Dále bylo zkoumáno využití před-trénovaných modelů a jejich dopad na výkon ASR (na rozdíl od trénovaní pouze z cílových dat). Kromě toho byl aplikován veřejně dostupný model Whisper, přičemž jeho výstup byl zpracováván tak, aby odpovídal požadovanému formátu přepisu. Kromě ladění modelových architektur a celkových trénovacích schémat byla zlepšována robustnost našich modelů tím, že byla rozšířená trénovací data o šumy extrahované z cílové domény. Dále byl využit externím LM nad N-best hypotézami z jednotlivých ASR systémů. Všechny tyto snahy vedly k výraznému snížení WER. Náš nejlepší systém a fúze vybraných systémů dosáhly 16,3% a 13,7% WER na testovacích datech RTVE2020, tedy oficiálních datech z předchozí Albayzin soutěže.

Rok
2022
Strany
276–280
Sborník
Proceedings of IberSpeech 2022
Vydavatel
International Speech Communication Association
Místo
Granada
DOI
BibTeX
@inproceedings{BUT180167,
  author="Martin {Kocour} and Jahnavi {Umesh} and Martin {Karafiát} and Ján {Švec} and Fernando {Lopez} and Karel {Beneš} and Mireia {Diez Sánchez} and Igor {Szőke} and Jordi {Luque} and Karel {Veselý} and Lukáš {Burget} and Jan {Černocký}",
  title="BCN2BRNO: ASR System Fusion for Albayzin 2022 Speech to Text Challenge",
  booktitle="Proceedings of IberSpeech 2022",
  year="2022",
  pages="276--280",
  publisher="International Speech Communication Association",
  address="Granada",
  doi="10.21437/IberSPEECH.2022-56",
  url="https://www.isca-speech.org/archive/pdfs/iberspeech_2022/kocour22_iberspeech.pdf"
}
Nahoru