Detail publikace
Contextual Semi-Supervised Learning: An Approach to Leverage Air-Surveillance and Untranscribed ATC Data in ASR Systems
NIGMATULINA, I.
Prasad Amrutha (UPGM)
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
Veselý Karel, Ing., Ph.D. (UPGM)
Kocour Martin, Ing. (UPGM)
Szőke Igor, Ing., Ph.D. (UPGM)
automatic speech recognition, contextual semisupervised learning, air traffic control, air-surveillance data, callsign detection.
Řízení letového provozu a konkrétně řízení letového provozu (ATC) spoléhají především na hlasovou komunikaci mezi dispečery letového provozu (ATCos) a piloty. Ve většině případů tyto hlasové komunikace dodržují dobře definovanou gramatiku, kterou lze využít v technologiích automatického rozpoznávání řeči (ASR). Volací znak používaný k oslovení letadla je nezbytnou součástí veškeré Komunikace ATCo-pilota. Navrhujeme dvoufázový přístup přidat kontextové znalosti během polořízeného školení snížit chybovost systému ASR při rozpoznání části výrok, který obsahuje volací značku. Zpočátku zastupujeme v a WFST kontextové znalosti (tj. údaje z leteckého dohledu). komunikace ATCo-pilot. Pak během Semi-Supervised Učení (SSL) kontextové znalosti jsou přidány pomocí secondpass dekódování (tj. mřížkové opětovné bodování). Výsledky ukazují, že neviditelné". domény" (např. údaje z letišť, která nejsou přítomna v kontrolovaných tréninková data) jsou dále podporovány kontextovým SSL, když ve srovnání se samostatným SSL. Pro tento úkol představujeme Míra chybovosti slovní značky (CA-WER) jako hodnotící metrika, který pouze posuzuje výkon ASR mluvené volací značky ve výpovědi. Získali jsme relativní zlepšení CA-WER o 32,1 %. použití SSL s dodatečnými 17,5 % CA-WER vylepšení přidáním kontextových znalostí během SSL na a náročná testovací sada založená na ATC shromážděná z LiveATC.
@inproceedings{BUT175846,
author="ZULUAGA-GOMEZ, J. and NIGMATULINA, I. and PRASAD, A. and MOTLÍČEK, P. and VESELÝ, K. and KOCOUR, M. and SZŐKE, I.",
title="Contextual Semi-Supervised Learning: An Approach to Leverage Air-Surveillance and Untranscribed ATC Data in ASR Systems",
booktitle="Proceedings Interspeech 2021",
year="2021",
journal="Proceedings of Interspeech",
volume="2021",
number="8",
pages="3296--3300",
publisher="International Speech Communication Association",
address="Brno",
doi="10.21437/Interspeech.2021-1373",
issn="1990-9772",
url="https://www.isca-speech.org/archive/interspeech_2021/zuluagagomez21_interspeech.html"
}