Detail publikace
Automatic Processing Pipeline for Collecting and Annotating Air-Traffic Voice Communication Data
Veselý Karel, Ing., Ph.D. (UPGM FIT VUT)
Szőke Igor, Ing., Ph.D. (UPGM FIT VUT)
Kesiraju Santosh (UPGM FIT VUT)
Zuluaga-Gomez Juan (IDIAP)
Blatt Alexander (UDS)
Prasad Amrutha (IDIAP)
Nigmatulina Iuliia (IDIAP)
Motlíček Petr, Ing., Ph.D. (IDIAP)
Klakow Dietrich (UDS)
Tart Allan (OpenSky)
Kolčárek Pavel (Honeywell)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
Cevenini Claudia (RomagnaTech)
Choukri Khalid (ELRA)
Rigault Mickael (ELRA)
Landis Fabian (OpenSky)
a další
automatické rozpoznávání řeči; kontrola letového provozu; kontextová adaptace; identifikace jazyka; rozpoznávání pojmenované entity; opensky síť
Tento dokument popisuje naši pipeline pro automatické zpracování pilotní audio komunikace ATCO, kterou jsme vyvinuli v rámci projektu ATCO2. Dosud jsme shromáždili dva tisíce hodin zvukových nahrávek, které jsme buď předzpracovali pro přepisovatele, nebo je použili pro polořízená trénování. Oba způsoby použití shromážděných dat mohou dále zlepšit naši pipeline přeškolením našich modelů. Navrhovaný kanál automatického zpracování je kaskáda mnoha samostatných komponent: (a) segmentace, (b) ovládání hlasitosti, (c) filtrování poměru signálu k šumu, (d) diarizace, (e) modul řeči na text (ASR). , (f) detekce anglického jazyka, (g) rozpoznávání kódu volací značky, (h) klasifikace ATCOpilota a (i) zvýraznění příkazů a hodnot. Klíčovou součástí pipeline je systém přepisu řeči do textu, který musí být trénován s reálnými daty ATC; jinak je výkon slabý. Abychom dále zlepšili výkon řeči na text, aplikujeme jak polořízené trénování s našimi nahrávkami, tak kontextovou adaptaci, která jako pomocnou informaci používá seznam věrohodných volacích značek z dat sledování. Následné úlohy NLP/NLU jsou důležité z hlediska aplikace. Tyto aplikační úlohy vyžadují přesné modely fungující nad skutečným převodem řeči na text; proto je také potřeba více dat. Vytváření dat ATC je hlavním cílem projektu ATCO2. Na konci projektu budou data zabalena a distribuována společností ELDA.
@INPROCEEDINGS{FITPUB12687, author = "Martin Kocour and Karel Vesel\'{y} and Igor Sz\H{o}ke and Santosh Kesiraju and Juan Zuluaga-Gomez and Alexander Blatt and Amrutha Prasad and Iuliia Nigmatulina and Petr Motl\'{i}\v{c}ek and Dietrich Klakow and Allan Tart and Pavel Kol\v{c}\'{a}rek and Jan \v{C}ernock\'{y} and Claudia Cevenini and Khalid Choukri and Mickael Rigault and Fabian Landis and Saeed Sarfjoo and et al.", title = "Automatic Processing Pipeline for Collecting and Annotating Air-Traffic Voice Communication Data", pages = "1--10", booktitle = "Proceedings of 9th OpenSky Symposium 2021, OpenSky Network, Brussels, Belgium", journal = "Proceedings", volume = 2021, number = 12, year = 2021, location = "Brussels, BE", publisher = "MDPI", ISSN = "2504-3900", doi = "10.3390/engproc2021013008", language = "english", url = "https://www.fit.vut.cz/research/publication/12687" }