Detail publikace
Lessons Learned in Transcribing 5000 h of Air Traffic Control Communications for Robust Automatic Speech Understanding
NIGMATULINA, I.
Prasad Amrutha (UPGM)
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
KHALIL, D.
Madikeri Srikanth (FIT)
TART, A.
Szőke Igor, Ing., Ph.D. (UPGM)
LENDERS, V.
RIGAULT, M.
CHOUKRI, K.
air traffic control communications; automatic speech recognition and understanding; OpenSky Network; callsign recognition; ADS-B data
Hlasová komunikace mezi řídícími letového provozu (ATCos) a piloty je zásadní pro zajištění bezpečného a efektivního řízení letového provozu (ATC). Obsluha těchto hlasových komunikací vyžaduje vysokou úroveň informovanosti od ATCos a může být únavné a náchylné k chybám. Nedávné pokusy zaměřit se na integraci umělé inteligence (AI) do komunikace ATC s cílem snížit ATCos pracovní zátěž. Nicméně vývoj systémů umělé inteligence řízených daty pro porozumění mluvenému ATC komunikace vyžaduje rozsáhlé anotované datové sady, které v současné době v oboru chybí. Tento dokument zkoumá ponaučení z projektu ATCO2, jehož cílem bylo vyvinout unikátní platforma pro shromažďování, předzpracování a přepis velkého množství zvukových dat ATC ze vzdušného prostoru reálný čas. Tento článek se zabývá (i) robustním automatickým rozpoznáváním řeči (ASR), (ii) přirozeným jazykem zpracování, (iii) identifikace v anglickém jazyce a (iv) kontextové ovlivnění ASR sledováním data. Potrubí vyvinutý během projektu ATCO2 spolu s otevřeným získáváním jeho dat, podporuje výzkum v oblasti ATC, zatímco celý korpus lze zakoupit prostřednictvím ELDA. ATCO2 korpusy jsou vhodné pro vývoj systémů ASR, kde se přepisuje málo nebo téměř žádný zvuk ATC údaje jsou k dispozici. Například navrhovaný systém ASR trénovaný s ATCO2 dosahuje tak nízkých hodnot 17,9 % WER na veřejných datových sadách ATC, což je o 6,6 % absolutní WER lepší než u "mimo doménu" ale zlaté přepisy. Konečně, vydání 5000 h ASR přepsané řeči - pokrývající více více než 10 letišť po celém světě - je krokem vpřed směrem k robustnějšímu automatickému porozumění řeči systémy pro ATC komunikaci.
@article{BUT185576,
author="ZULUAGA-GOMEZ, J. and NIGMATULINA, I. and PRASAD, A. and MOTLÍČEK, P. and KHALIL, D. and MADIKERI, S. and TART, A. and SZŐKE, I. and LENDERS, V. and RIGAULT, M. and CHOUKRI, K.",
title="Lessons Learned in Transcribing 5000 h of Air Traffic Control Communications for Robust Automatic Speech Understanding",
journal="Aerospace",
year="2023",
volume="2023",
number="10",
pages="1--33",
doi="10.3390/aerospace10100898",
issn="2226-4310",
url="https://www.mdpi.com/2226-4310/10/10/898"
}