Detail publikace

Automatic Speech Recognition Benchmark for Air-Traffic Communications

ZULUAGA-GOMEZ, J.; MOTLÍČEK, P.; ZHAN, Q.; VESELÝ, K.; BRAUN, R. Automatic Speech Recognition Benchmark for Air-Traffic Communications. In Proceedings of Interspeech 2020. Proceedings of Interspeech. Shanghai: International Speech Communication Association, 2020. p. 2297-2301. ISSN: 1990-9772.
Název česky
Srovnávací test automatického rozpoznávání řeči pro hlasovou komunikací v leteckém provozu
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
ZULUAGA-GOMEZ, J.
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
ZHAN, Q.
Veselý Karel, Ing., Ph.D. (UPGM)
BRAUN, R.
URL
Klíčová slova

Speech Recognition, Air Traffic Control, Transfer Learning, Deep Neural Networks, Lattice-Free MMI

Abstrakt

Pokroky v automatickém rozpoznávání řeči (ASR) za poslední desetiletí otevřely nové oblasti automatizace založené na řeči, například v prostředích řízení letového provozu (ATC). V současné době je hlasová komunikace a komunikace datovými spoji jediným způsobem kontaktu mezi piloty a řídícími letového provozu (ATCo), přičemž první z nich je nejpoužívanější a druhý je nemluvená metoda povinná pro oceánské zprávy a pro některé omezená domácí problémy. Systémy ASR v prostředích ATCo zdědily rostoucí složitost díky akcentům od neanglických mluvčích, hluku v kokpitu, předsudkům závislým na reproduktorech a malým ATC databázím pro školení. Tímto představujeme CleanSky EC-H2020 ATCO2, projekt, jehož cílem je vyvinout platformu založenou na ASR pro sběr, organizaci a automatické předběžné zpracování dat řeči ATCo ze vzdušného prostoru. Tento dokument přináší průzkumné měřítko několika nejmodernějších modelů ASR trénovaných na více než 170 hodinách řečových dat ATCo. Ukazujeme, že mezery mezi přízvukem způsobené akcenty reproduktorů jsou minimalizovány kvůli množství dat, což činí systém proveditelným pro prostředí ATC. Vyvinutý systém ASR dosahuje průměrné chybovosti slov (WER) 7,75% ve čtyřech databázích. Dalšího 35% relativního zlepšení WER je dosaženo na jedné testovací sadě při tréninku systému TDNNF s kódováním bajtových párů.

Rok
2020
Strany
2297–2301
Časopis
Proceedings of Interspeech, roč. 2020, č. 10, ISSN 1990-9772
Sborník
Proceedings of Interspeech 2020
Vydavatel
International Speech Communication Association
Místo
Shanghai
DOI
UT WoS
000833594102086
EID Scopus
BibTeX
@inproceedings{BUT168149,
  author="ZULUAGA-GOMEZ, J. and MOTLÍČEK, P. and ZHAN, Q. and VESELÝ, K. and BRAUN, R.",
  title="Automatic Speech Recognition Benchmark for Air-Traffic Communications",
  booktitle="Proceedings of Interspeech 2020",
  year="2020",
  journal="Proceedings of Interspeech",
  volume="2020",
  number="10",
  pages="2297--2301",
  publisher="International Speech Communication Association",
  address="Shanghai",
  doi="10.21437/Interspeech.2020-2173",
  issn="1990-9772",
  url="https://isca-speech.org/archive/Interspeech_2020/pdfs/2173.pdf"
}
Nahoru