Detail publikace
BCN2BRNO: ASR System Fusion for Albayzin 2022 Speech to Text Challenge
Umesh Jahnavi
Karafiát Martin, Ing., Ph.D. (UPGM)
Švec Ján, Ing. (UPGM)
Lopez Fernando
Beneš Karel, Ing. (UPGM)
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM)
Szőke Igor, Ing., Ph.D. (UPGM)
Luque Jordi (FIT)
Veselý Karel, Ing., Ph.D. (UPGM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)
ASR fusion, end-to-end model, self-supervised learning, automatic speech recognition.
Článek popisuje výzkum vývoje systémů automatického rozpoznávání řeči (ASR) pro soutěž Albayzin 2022. Byly natrénovány a vyhodnocovány jak hybridní systémy, tak ty založené na end-to-end modelech. Dále bylo zkoumáno využití před-trénovaných modelů a jejich dopad na výkon ASR (na rozdíl od trénovaní pouze z cílových dat). Kromě toho byl aplikován veřejně dostupný model Whisper, přičemž jeho výstup byl zpracováván tak, aby odpovídal požadovanému formátu přepisu. Kromě ladění modelových architektur a celkových trénovacích schémat byla zlepšována robustnost našich modelů tím, že byla rozšířená trénovací data o šumy extrahované z cílové domény. Dále byl využit externím LM nad N-best hypotézami z jednotlivých ASR systémů. Všechny tyto snahy vedly k výraznému snížení WER. Náš nejlepší systém a fúze vybraných systémů dosáhly 16,3% a 13,7% WER na testovacích datech RTVE2020, tedy oficiálních datech z předchozí Albayzin soutěže.
@inproceedings{BUT180167,
author="Martin {Kocour} and Jahnavi {Umesh} and Martin {Karafiát} and Ján {Švec} and Fernando {Lopez} and Karel {Beneš} and Mireia {Diez Sánchez} and Igor {Szőke} and Jordi {Luque} and Karel {Veselý} and Lukáš {Burget} and Jan {Černocký}",
title="BCN2BRNO: ASR System Fusion for Albayzin 2022 Speech to Text Challenge",
booktitle="Proceedings of IberSpeech 2022",
year="2022",
pages="276--280",
publisher="International Speech Communication Association",
address="Granada",
doi="10.21437/IberSPEECH.2022-56",
url="https://www.isca-speech.org/archive/pdfs/iberspeech_2022/kocour22_iberspeech.pdf"
}