Detail publikace

Grammar Based Speaker Role Identification for Air Traffic Control Speech Recognition

PRASAD, A.; ZULUAGA-GOMEZ, J.; MOTLÍČEK, P.; SARFJOO, S.; NIGMATULINA, I.; OHNEISER, O.; HELMKE, H. Grammar Based Speaker Role Identification for Air Traffic Control Speech Recognition. Proceedings of the 12th SESAR Innovation Days. Budapest: 2022. p. 1-9.

Název česky

Identifikace role mluvčího pro rozpoznávání řeči při řízení letového provozu na základě gramatiky

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Prasad Amrutha (UPGM)
ZULUAGA-GOMEZ, J.
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
Sarfjoo Seyyed Saeed
NIGMATULINA, I.
OHNEISER, O.
HELMKE, H.

URL

Klíčová slova

assistant based speech recognition, air traffic management, multitask acoustic modeling, speaker role classification, Kaldi

Abstrakt

Automatické rozpoznávání řeči (ASR) pro letecký provoz řízení je obecně trénováno sdružováním řídících letového provozu (ATCO) a pilotní data do jedné sady. To je motivováno tím skutečnost, že pilotova hlasová komunikace je vzácnější než ATCO. Kvůli této nevyváženosti dat a dalším důvodům (např. proměnlivé akustické podmínky), je obvykle řeč z ATCO rozpoznat přesněji než od pilotů. Automaticky identifikace rolí mluvčích je obzvláště náročný úkol v případě hlučných hlasových nahrávek shromážděných pomocí Very Vysokofrekvenční (VHF) přijímače nebo z důvodu nedostupnosti signálu push-to-talk (PTT), tj. oba audio kanály jsou smíšený. V této práci navrhujeme (1) automaticky segmentovat ATCO a pilotní data založená na využití intuitivního přístupu ASR přepisy a (2) následně zvážit automatické rozpoznání hlasu ATCO a pilotů jako dvou samostatných úkolů. Naše práce se provádí na VHF audio datech s vysokým šumem úrovně, tj. poměr signálu k šumu (SNR) pod 15 dB, protože tato data je uznáváno jako užitečné pro různé strojové učení založené na řeči úkoly. Konkrétně pro identifikaci role mluvčího úkol, modul je reprezentován jednoduchým, ale účinným znalostní systém využívající gramatiku definovanou v Mezinárodní organizace pro civilní letectví (ICAO). Systém přijímá text jako vstup, buď ručně ověřené anotace nebo automaticky generované přepisy. Rozvinutý přístup poskytuje průměrnou přesnost při identifikaci role mluvčího asi 83 %. Nakonec si ukážeme, že trénujeme akustický model pro úkoly ASR samostatně (tj. samostatné modely pro ATCO a piloti) nebo použití víceúlohového přístupu se dobře hodí pro hlučné dat a překonává tradiční systém ASR, kde jsou všechna data je sdruženo dohromady.

Rok

2022

Strany

1–9

Sborník

Proceedings of the 12th SESAR Innovation Days

Místo

Budapest

BibTeX

@inproceedings{BUT185195,
  author="PRASAD, A. and ZULUAGA-GOMEZ, J. and MOTLÍČEK, P. and SARFJOO, S. and NIGMATULINA, I. and OHNEISER, O. and HELMKE, H.",
  title="Grammar Based Speaker Role Identification for Air Traffic Control Speech Recognition",
  booktitle="Proceedings of the 12th SESAR Innovation Days",
  year="2022",
  pages="1--9",
  address="Budapest",
  url="https://arxiv.org/abs/2108.12175"
}