Detail publikace
An Automatic Speaker Clustering Pipeline for the Air Traffic Communication Domain
Prasad Amrutha (UPGM)
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
ZULUAGA-GOMEZ, J.
NIGMATULINA, I.
Madikeri Srikanth (FIT)
SCHUEPBACH, C.
speaker clustering; speaker role detection
V řízení letového provozu (ATM) je hlasová komunikace rozhodující pro zajištění bezpečného a efektivního provozu letadel. Příslušná hlasová komunikace - řídící letového provozu (ATCo) a pilot - jsou obvykle přenášeny v jediném kanálu, což představuje výzvu při vývoji automatických systémů pro řízení letového provozu. Shlukování mluvčích je jednou z výzev při aplikaci algoritmů pro zpracování řeči k identifikaci a seskupení stejného mluvčího mezi různé mluvčí. Navrhujeme kanál, který nasazuje (i) detekci řečové aktivity (SAD) k identifikaci segmentů řeči, (ii) systém automatického rozpoznávání řeči pro generování textu pro zvukové segmenty, (iii) klasifikaci rolí mluvčího na základě textu k detekci role řečník-ATCo nebo pilot v našem případě a (iv) shlukování řečníků bez dozoru k vytvoření shluku každého jednotlivého pilotního řečníka ze získaných řečových projevů. Segmenty řeči získané pomocí SAD jsou vkládány do stroje pro automatické rozpoznávání řeči (ASR), který generuje automatické anglické přepisy. Systém klasifikace rolí mluvčího bere přepis jako vstup a používá jej k určení, zda řeč byla od ATCo nebo pilota. Protože hlavním cílem tohoto projektu je seskupení mluvčích v pilotní komunikaci, jsou využívána pouze pilotní data získaná z klasifikačního systému. Představujeme metodu pro oddělení řečových částí pilotů do různých shluků na základě hlasu mluvčího pomocí aglomerativního hierarchického shlukování (AHC). Výkon klasifikace rolí mluvčího a shlukování mluvčích se hodnotí na dvou veřejně dostupných souborech dat: korpusu ATCO2 a korpusu Linguistic Data Consortium Air Traffic Control Corpus (LDC-ATCC). Protože skutečná identita pilotů není známa, základní pravda je generována na základě logických hypotéz týkajících se vytvoření každé datové sady, informací o načasování a informací extrahovaných z přidružených volacích značek. V případě shlukování mluvčích dosahuje navrhovaný algoritmus přesnosti 70 % na datovém souboru LDC-ATCC a 50 % na více zašuměném datovém souboru ATCO2.
@article{BUT187753,
author="KHALIL, D. and PRASAD, A. and MOTLÍČEK, P. and ZULUAGA-GOMEZ, J. and NIGMATULINA, I. and MADIKERI, S. and SCHUEPBACH, C.",
title="An Automatic Speaker Clustering Pipeline for the Air Traffic Communication Domain",
journal="Aerospace",
year="2023",
volume="10",
number="10",
pages="1--14",
doi="10.3390/aerospace10100876",
issn="2226-4310",
url="https://www.mdpi.com/2226-4310/10/10/876"
}