Detail publikace

A Two-Step Approach to Leverage Contextual Data: Speech Recognition in Air-Traffic Communications

NIGMATULINA, I.; ZULUAGA-GOMEZ, J.; PRASAD, A.; SARFJOO, S.; MOTLÍČEK, P. A Two-Step Approach to Leverage Contextual Data: Speech Recognition in Air-Traffic Communications. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Singapore: IEEE Signal Processing Society, 2022. p. 6282-6286. ISBN: 978-1-6654-0540-9.

Název česky

Dvoustupňový přístup pro využité kontextuálních dat: rozpoznávání řeči v letectví

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

NIGMATULINA, I.
ZULUAGA-GOMEZ, J.
Prasad Amrutha (UPGM)
SARFJOO, S.
Motlíček Petr, doc. Ing., Ph.D. (UPGM)

URL

Klíčová slova

automatic speech recognition, human-computer interaction, Air-Traffic Control, Air-Surveillance Data, Callsign Detection, finite-state transducers

Abstrakt

Automatické rozpoznávání řeči (ASR) jako pomoc při komunikaci mezi piloty a řídícími letového provozu může výrazně snížit složitost úkolu a zvýšit spolehlivost přenášených informací. Aplikace ASR může vést k nižšímu počtu incidentů způsobených nedorozuměním a zlepšit efektivitu řízení letového provozu (ATM). Je zřejmé, že pro minimalizaci rizika chyb jsou vyžadovány vysoce přesné předpovědi, zejména klíčových informací, tj. volacích značek a příkazů. Dokazujeme, že kombinace výhod metod ASR a Natural Language Processing (NLP) s využitím sledovacích dat (tj. další modalita) pomáhá výrazně zlepšit rozpoznávání volacích značek (pojmenovaná entita). V tomto článku zkoumáme dvoukrokový přístup zesilování volací značky: (1) v 1. kroku (ASR) jsou váhy pravděpodobných n-gramů volací značky sníženy v G.fst a/nebo v dekódování FST (mřížky), ( 2) ve 2. kroku (NLP) jsou volací značky extrahované z vylepšených výstupů rozpoznávání pomocí rozpoznávání pojmenovaných entit (NER) korelovány s daty sledování, aby se vybral ten nejvhodnější. Posílení n-gramů volacích značek kombinací metod ASR a NLP nakonec vede až k 53,7 % absolutního nebo 60,4 % relativního zlepšení rozpoznávání volacích značek.

Rok

2022

Strany

6282–6286

Sborník

ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings

ISBN

978-1-6654-0540-9

Vydavatel

IEEE Signal Processing Society

Místo

Singapore

DOI

10.1109/ICASSP43922.2022.9746563

UT WoS

000864187906114

EID Scopus

2-s2.0-85128558160

BibTeX

@inproceedings{BUT178411,
  author="NIGMATULINA, I. and ZULUAGA-GOMEZ, J. and PRASAD, A. and SARFJOO, S. and MOTLÍČEK, P.",
  title="A Two-Step Approach to Leverage Contextual Data: Speech Recognition in Air-Traffic Communications",
  booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
  year="2022",
  pages="6282--6286",
  publisher="IEEE Signal Processing Society",
  address="Singapore",
  doi="10.1109/ICASSP43922.2022.9746563",
  isbn="978-1-6654-0540-9",
  url="https://ieeexplore.ieee.org/document/9746563"
}