Detail produktu

BCN2BRNO Automatic speech recognition system for Albayzin 2022 Speech to Text Challenge

Vznik: 2022

Název česky
BCN2BRNO: ASR systém pro Albayzin 2022 Speech to Text Challenge
Typ
software
Licence
K využití výsledku jiným subjektem je vždy nutné nabytí licence
Licenční poplatek
Poskytovatel licence na výsledek nepožaduje licenční poplatek
Autoři
Klíčová slova

automatic speech recognition

Popis

Software je založen na výzkumu a vývoji systémů automatického rozpoznávání řeči (ASR) pro soutěž Albayzin 2022. Byly natrénovány a vyhodnocovány jak hybridní systémy, tak ty založené na end-to-end modelech. Dále bylo zkoumáno využití před-trénovaných modelů a jejich dopad na výkon ASR (na rozdíl od trénovaní pouze z cílových dat). Kromě toho byl aplikován veřejně dostupný model Whisper, přičemž jeho výstup byl zpracováván tak, aby odpovídal požadovanému formátu přepisu. Kromě ladění modelových architektur a celkových trénovacích schémat byla zlepšována robustnost našich modelů tím, že byla rozšířená trénovací data o šumy extrahované z cílové domény. Dále byl využit externím LM nad N-best hypotézami z jednotlivých ASR systémů. Všechny tyto snahy vedly k výraznému snížení WER. Náš nejlepší systém a fúze vybraných systémů dosáhly 16,3% a 13,7% WER na testovacích datech RTVE2020, tedy oficiálních datech z předchozí Albayzin soutěže.

Umístění
Licenční podmínky

Pro informace o licenčních podmínkách prosím kontaktujte: Ing. Martina Kocmanová, Výzkumné centrum informačních technologií, Fakulta informačních technologií VUT v Brně, Božetěchova 2, 612 66 Brno, tel. 541 141 466.

Projekty
Multi-lingualita v řečových technologiích, MŠMT, INTER-EXCELLENCE - Podprogram INTER-ACTION 19LTAIN, LTAIN19087, 2020-2023, řešení
Výzkumné skupiny
Pracoviště
Nahoru