Detail publikace

Lessons Learned in Transcribing 5000 h of Air Traffic Control Communications for Robust Automatic Speech Understanding

ZULUAGA-GOMEZ, J.; NIGMATULINA, I.; PRASAD, A.; MOTLÍČEK, P.; KHALIL, D.; MADIKERI, S.; TART, A.; SZŐKE, I.; LENDERS, V.; RIGAULT, M.; CHOUKRI, K. Lessons Learned in Transcribing 5000 h of Air Traffic Control Communications for Robust Automatic Speech Understanding. Aerospace, 2023, vol. 2023, no. 10, p. 1-33. ISSN: 2226-4310.
Název česky
Poznatky získané při přepisu 5000 hodin komunikace řízení letového provozu pro robustní automatické porozumění řeči
Typ
článek v časopise
Jazyk
anglicky
Autoři
ZULUAGA-GOMEZ, J.
NIGMATULINA, I.
Prasad Amrutha (UPGM)
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
KHALIL, D.
Madikeri Srikanth (FIT)
TART, A.
Szőke Igor, Ing., Ph.D. (UPGM)
LENDERS, V.
RIGAULT, M.
CHOUKRI, K.
URL
Klíčová slova

air traffic control communications; automatic speech recognition and understanding; OpenSky Network; callsign recognition; ADS-B data

Abstrakt

Hlasová komunikace mezi řídícími letového provozu (ATCos) a piloty je zásadní pro zajištění bezpečného a efektivního řízení letového provozu (ATC). Obsluha těchto hlasových komunikací vyžaduje vysokou úroveň informovanosti od ATCos a může být únavné a náchylné k chybám. Nedávné pokusy zaměřit se na integraci umělé inteligence (AI) do komunikace ATC s cílem snížit ATCos pracovní zátěž. Nicméně vývoj systémů umělé inteligence řízených daty pro porozumění mluvenému ATC komunikace vyžaduje rozsáhlé anotované datové sady, které v současné době v oboru chybí. Tento dokument zkoumá ponaučení z projektu ATCO2, jehož cílem bylo vyvinout unikátní platforma pro shromažďování, předzpracování a přepis velkého množství zvukových dat ATC ze vzdušného prostoru reálný čas. Tento článek se zabývá (i) robustním automatickým rozpoznáváním řeči (ASR), (ii) přirozeným jazykem zpracování, (iii) identifikace v anglickém jazyce a (iv) kontextové ovlivnění ASR sledováním data. Potrubí vyvinutý během projektu ATCO2 spolu s otevřeným získáváním jeho dat, podporuje výzkum v oblasti ATC, zatímco celý korpus lze zakoupit prostřednictvím ELDA. ATCO2 korpusy jsou vhodné pro vývoj systémů ASR, kde se přepisuje málo nebo téměř žádný zvuk ATC údaje jsou k dispozici. Například navrhovaný systém ASR trénovaný s ATCO2 dosahuje tak nízkých hodnot 17,9 % WER na veřejných datových sadách ATC, což je o 6,6 % absolutní WER lepší než u "mimo doménu" ale zlaté přepisy. Konečně, vydání 5000 h ASR přepsané řeči - pokrývající více více než 10 letišť po celém světě - je krokem vpřed směrem k robustnějšímu automatickému porozumění řeči systémy pro ATC komunikaci.

Rok
2023
Strany
1–33
Časopis
Aerospace, roč. 2023, č. 10, ISSN 2226-4310
DOI
UT WoS
001093774900001
EID Scopus
BibTeX
@article{BUT185576,
  author="ZULUAGA-GOMEZ, J. and NIGMATULINA, I. and PRASAD, A. and MOTLÍČEK, P. and KHALIL, D. and MADIKERI, S. and TART, A. and SZŐKE, I. and LENDERS, V. and RIGAULT, M. and CHOUKRI, K.",
  title="Lessons Learned in Transcribing 5000 h of Air Traffic Control Communications for Robust Automatic Speech Understanding",
  journal="Aerospace",
  year="2023",
  volume="2023",
  number="10",
  pages="1--33",
  doi="10.3390/aerospace10100898",
  issn="2226-4310",
  url="https://www.mdpi.com/2226-4310/10/10/898"
}
Nahoru