Detail publikace
Automatic Speech Recognition Benchmark for Air-Traffic Communications
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
ZHAN, Q.
Veselý Karel, Ing., Ph.D. (UPGM)
BRAUN, R.
Speech Recognition, Air Traffic Control, Transfer Learning, Deep Neural Networks, Lattice-Free MMI
Pokroky v automatickém rozpoznávání řeči (ASR) za poslední desetiletí otevřely nové oblasti automatizace založené na řeči, například v prostředích řízení letového provozu (ATC). V současné době je hlasová komunikace a komunikace datovými spoji jediným způsobem kontaktu mezi piloty a řídícími letového provozu (ATCo), přičemž první z nich je nejpoužívanější a druhý je nemluvená metoda povinná pro oceánské zprávy a pro některé omezená domácí problémy. Systémy ASR v prostředích ATCo zdědily rostoucí složitost díky akcentům od neanglických mluvčích, hluku v kokpitu, předsudkům závislým na reproduktorech a malým ATC databázím pro školení. Tímto představujeme CleanSky EC-H2020 ATCO2, projekt, jehož cílem je vyvinout platformu založenou na ASR pro sběr, organizaci a automatické předběžné zpracování dat řeči ATCo ze vzdušného prostoru. Tento dokument přináší průzkumné měřítko několika nejmodernějších modelů ASR trénovaných na více než 170 hodinách řečových dat ATCo. Ukazujeme, že mezery mezi přízvukem způsobené akcenty reproduktorů jsou minimalizovány kvůli množství dat, což činí systém proveditelným pro prostředí ATC. Vyvinutý systém ASR dosahuje průměrné chybovosti slov (WER) 7,75% ve čtyřech databázích. Dalšího 35% relativního zlepšení WER je dosaženo na jedné testovací sadě při tréninku systému TDNNF s kódováním bajtových párů.
@inproceedings{BUT168149,
author="ZULUAGA-GOMEZ, J. and MOTLÍČEK, P. and ZHAN, Q. and VESELÝ, K. and BRAUN, R.",
title="Automatic Speech Recognition Benchmark for Air-Traffic Communications",
booktitle="Proceedings of Interspeech 2020",
year="2020",
journal="Proceedings of Interspeech",
volume="2020",
number="10",
pages="2297--2301",
publisher="International Speech Communication Association",
address="Shanghai",
doi="10.21437/Interspeech.2020-2173",
issn="1990-9772",
url="https://isca-speech.org/archive/Interspeech_2020/pdfs/2173.pdf"
}