Detail publikace

An Automatic Speaker Clustering Pipeline for the Air Traffic Communication Domain

KHALIL, D.; PRASAD, A.; MOTLÍČEK, P.; ZULUAGA-GOMEZ, J.; NIGMATULINA, I.; MADIKERI, S.; SCHUEPBACH, C. An Automatic Speaker Clustering Pipeline for the Air Traffic Communication Domain. Aerospace, 2023, vol. 10, no. 10, p. 1-14. ISSN: 2226-4310.
Název česky
Automatický postup pro shlukování mluvčích v oblasti letecké komunikace
Typ
článek v časopise
Jazyk
anglicky
Autoři
KHALIL, D.
Prasad Amrutha (UPGM)
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
ZULUAGA-GOMEZ, J.
NIGMATULINA, I.
Madikeri Srikanth (FIT)
SCHUEPBACH, C.
URL
Klíčová slova

speaker clustering; speaker role detection

Abstrakt

V řízení letového provozu (ATM) je hlasová komunikace rozhodující pro zajištění bezpečného a efektivního provozu letadel. Příslušná hlasová komunikace - řídící letového provozu (ATCo) a pilot - jsou obvykle přenášeny v jediném kanálu, což představuje výzvu při vývoji automatických systémů pro řízení letového provozu. Shlukování mluvčích je jednou z výzev při aplikaci algoritmů pro zpracování řeči k identifikaci a seskupení stejného mluvčího mezi různé mluvčí. Navrhujeme kanál, který nasazuje (i) detekci řečové aktivity (SAD) k identifikaci segmentů řeči, (ii) systém automatického rozpoznávání řeči pro generování textu pro zvukové segmenty, (iii) klasifikaci rolí mluvčího na základě textu k detekci role řečník-ATCo nebo pilot v našem případě a (iv) shlukování řečníků bez dozoru k vytvoření shluku každého jednotlivého pilotního řečníka ze získaných řečových projevů. Segmenty řeči získané pomocí SAD jsou vkládány do stroje pro automatické rozpoznávání řeči (ASR), který generuje automatické anglické přepisy. Systém klasifikace rolí mluvčího bere přepis jako vstup a používá jej k určení, zda řeč byla od ATCo nebo pilota. Protože hlavním cílem tohoto projektu je seskupení mluvčích v pilotní komunikaci, jsou využívána pouze pilotní data získaná z klasifikačního systému. Představujeme metodu pro oddělení řečových částí pilotů do různých shluků na základě hlasu mluvčího pomocí aglomerativního hierarchického shlukování (AHC). Výkon klasifikace rolí mluvčího a shlukování mluvčích se hodnotí na dvou veřejně dostupných souborech dat: korpusu ATCO2 a korpusu Linguistic Data Consortium Air Traffic Control Corpus (LDC-ATCC). Protože skutečná identita pilotů není známa, základní pravda je generována na základě logických hypotéz týkajících se vytvoření každé datové sady, informací o načasování a informací extrahovaných z přidružených volacích značek. V případě shlukování mluvčích dosahuje navrhovaný algoritmus přesnosti 70 % na datovém souboru LDC-ATCC a 50 % na více zašuměném datovém souboru ATCO2.

Rok
2023
Strany
1–14
Časopis
Aerospace, roč. 10, č. 10, ISSN 2226-4310
DOI
UT WoS
001095599200001
EID Scopus
BibTeX
@article{BUT187753,
  author="KHALIL, D. and PRASAD, A. and MOTLÍČEK, P. and ZULUAGA-GOMEZ, J. and NIGMATULINA, I. and MADIKERI, S. and SCHUEPBACH, C.",
  title="An Automatic Speaker Clustering Pipeline for the Air Traffic Communication Domain",
  journal="Aerospace",
  year="2023",
  volume="10",
  number="10",
  pages="1--14",
  doi="10.3390/aerospace10100876",
  issn="2226-4310",
  url="https://www.mdpi.com/2226-4310/10/10/876"
}
Nahoru