Detail publikace

Grammar Based Speaker Role Identification for Air Traffic Control Speech Recognition

PRASAD, A.; ZULUAGA-GOMEZ, J.; MOTLÍČEK, P.; SARFJOO, S.; NIGMATULINA, I.; OHNEISER, O.; HELMKE, H. Grammar Based Speaker Role Identification for Air Traffic Control Speech Recognition. Proceedings of the 12th SESAR Innovation Days. Budapest: 2022. p. 1-9.
Název česky
Identifikace role mluvčího pro rozpoznávání řeči při řízení letového provozu na základě gramatiky
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Prasad Amrutha (UPGM)
ZULUAGA-GOMEZ, J.
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
Sarfjoo Seyyed Saeed
NIGMATULINA, I.
OHNEISER, O.
HELMKE, H.
URL
Klíčová slova

assistant based speech recognition, air traffic management, multitask acoustic modeling, speaker role classification, Kaldi

Abstrakt

Automatické rozpoznávání řeči (ASR) pro letecký provoz řízení je obecně trénováno sdružováním řídících letového provozu (ATCO) a pilotní data do jedné sady. To je motivováno tím skutečnost, že pilotova hlasová komunikace je vzácnější než ATCO. Kvůli této nevyváženosti dat a dalším důvodům (např. proměnlivé akustické podmínky), je obvykle řeč z ATCO rozpoznat přesněji než od pilotů. Automaticky identifikace rolí mluvčích je obzvláště náročný úkol v případě hlučných hlasových nahrávek shromážděných pomocí Very Vysokofrekvenční (VHF) přijímače nebo z důvodu nedostupnosti signálu push-to-talk (PTT), tj. oba audio kanály jsou smíšený. V této práci navrhujeme (1) automaticky segmentovat ATCO a pilotní data založená na využití intuitivního přístupu ASR přepisy a (2) následně zvážit automatické rozpoznání hlasu ATCO a pilotů jako dvou samostatných úkolů. Naše práce se provádí na VHF audio datech s vysokým šumem úrovně, tj. poměr signálu k šumu (SNR) pod 15 dB, protože tato data je uznáváno jako užitečné pro různé strojové učení založené na řeči úkoly. Konkrétně pro identifikaci role mluvčího úkol, modul je reprezentován jednoduchým, ale účinným znalostní systém využívající gramatiku definovanou v Mezinárodní organizace pro civilní letectví (ICAO). Systém přijímá text jako vstup, buď ručně ověřené anotace nebo automaticky generované přepisy. Rozvinutý přístup poskytuje průměrnou přesnost při identifikaci role mluvčího asi 83 %. Nakonec si ukážeme, že trénujeme akustický model pro úkoly ASR samostatně (tj. samostatné modely pro ATCO a piloti) nebo použití víceúlohového přístupu se dobře hodí pro hlučné dat a překonává tradiční systém ASR, kde jsou všechna data je sdruženo dohromady.

Rok
2022
Strany
1–9
Sborník
Proceedings of the 12th SESAR Innovation Days
Místo
Budapest
BibTeX
@inproceedings{BUT185195,
  author="PRASAD, A. and ZULUAGA-GOMEZ, J. and MOTLÍČEK, P. and SARFJOO, S. and NIGMATULINA, I. and OHNEISER, O. and HELMKE, H.",
  title="Grammar Based Speaker Role Identification for Air Traffic Control Speech Recognition",
  booktitle="Proceedings of the 12th SESAR Innovation Days",
  year="2022",
  pages="1--9",
  address="Budapest",
  url="https://arxiv.org/abs/2108.12175"
}
Nahoru