Detail publikace

A Two-Step Approach to Leverage Contextual Data: Speech Recognition in Air-Traffic Communications

NIGMATULINA, I.; ZULUAGA-GOMEZ, J.; PRASAD, A.; SARFJOO, S.; MOTLÍČEK, P. A Two-Step Approach to Leverage Contextual Data: Speech Recognition in Air-Traffic Communications. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Singapore: IEEE Signal Processing Society, 2022. p. 6282-6286. ISBN: 978-1-6654-0540-9.
Název česky
Dvoustupňový přístup pro využité kontextuálních dat: rozpoznávání řeči v letectví
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
NIGMATULINA, I.
ZULUAGA-GOMEZ, J.
Prasad Amrutha (UPGM)
SARFJOO, S.
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
URL
Klíčová slova

automatic speech recognition, human-computer interaction, Air-Traffic Control, Air-Surveillance Data, Callsign Detection, finite-state transducers

Abstrakt

Automatické rozpoznávání řeči (ASR) jako pomoc při komunikaci mezi piloty a řídícími letového provozu může výrazně snížit složitost úkolu a zvýšit spolehlivost přenášených informací. Aplikace ASR může vést k nižšímu počtu incidentů způsobených nedorozuměním a zlepšit efektivitu řízení letového provozu (ATM). Je zřejmé, že pro minimalizaci rizika chyb jsou vyžadovány vysoce přesné předpovědi, zejména klíčových informací, tj. volacích značek a příkazů. Dokazujeme, že kombinace výhod metod ASR a Natural Language Processing (NLP) s využitím sledovacích dat (tj. další modalita) pomáhá výrazně zlepšit rozpoznávání volacích značek (pojmenovaná entita). V tomto článku zkoumáme dvoukrokový přístup zesilování volací značky: (1) v 1. kroku (ASR) jsou váhy pravděpodobných n-gramů volací značky sníženy v G.fst a/nebo v dekódování FST (mřížky), ( 2) ve 2. kroku (NLP) jsou volací značky extrahované z vylepšených výstupů rozpoznávání pomocí rozpoznávání pojmenovaných entit (NER) korelovány s daty sledování, aby se vybral ten nejvhodnější. Posílení n-gramů volacích značek kombinací metod ASR a NLP nakonec vede až k 53,7 % absolutního nebo 60,4 % relativního zlepšení rozpoznávání volacích značek.

Rok
2022
Strany
6282–6286
Sborník
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
ISBN
978-1-6654-0540-9
Vydavatel
IEEE Signal Processing Society
Místo
Singapore
DOI
UT WoS
000864187906114
EID Scopus
BibTeX
@inproceedings{BUT178411,
  author="NIGMATULINA, I. and ZULUAGA-GOMEZ, J. and PRASAD, A. and SARFJOO, S. and MOTLÍČEK, P.",
  title="A Two-Step Approach to Leverage Contextual Data: Speech Recognition in Air-Traffic Communications",
  booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
  year="2022",
  pages="6282--6286",
  publisher="IEEE Signal Processing Society",
  address="Singapore",
  doi="10.1109/ICASSP43922.2022.9746563",
  isbn="978-1-6654-0540-9",
  url="https://ieeexplore.ieee.org/document/9746563"
}
Nahoru