Detail publikace
Automatic Speech Analysis Framework for ATC Communication in HAAWAII
Prasad Amrutha (UPGM)
NIGMATULINA, I.
HELMKE, H.
OHNEISER, O.
KLEINERT, M.
HAAWAII project, Speech activity detection, Speaker segmentation, Speaker role classification, Automatic Speech Recognition.
V posledních letech několik SESAR financovalo ex- ploratorní projekty zaměřené na přiblížení řeči a jazyka technologie do oblasti řízení letového provozu (ATM) a demonstrovat svou přidanou hodnotu prostřednictvím úspěšných aplikací. Nedávno ukončený projekt HAAWAII vyvinul generický archiv tecture and framework, který byl ověřen několika úkoly, jako je zvýraznění volacích značek, předvyplnění radarových štítků a detekce chyb zpětného čtení. Primárním cílem bylo podpořit pilota a komunikaci řídícího letového provozu nasazením automatiky Motory pro rozpoznávání řeči (ASR). Kontextové informace (pokud dostupné) extrahované z přehledových údajů, údajů letového plánu, popř předchozí komunikaci lze využít prostřednictvím podpory entity k dalšímu zlepšení výkonu rozpoznávání. HAWAII navrhl různé konstrukční atributy pro integraci motoru ASR do rámce ATM, často v závislosti na konkrétní technické specifika cílových poskytovatelů letových navigačních služeb (ANSP). Tento práce podává stručný přehled a poskytuje objektivní hodnocení komponent pro zpracování řeči vyvinutých a integrovaných rámec HAAWAII. Konkrétně se jedná o následující úkoly hodnoceno w.r.t. aplikační doména: (i) detekce řečové aktivity, (ii) segmentace mluvčích a klasifikace rolí mluvčích jako (iii) ASR. Podle našich nejlepších znalostí nabízí rámec HAAWAII nejvýkonnější řečové technologie pro ATM, dosahující výše přesnost rozpoznávání (tj. oprava chyb prováděná využitím další kontextová data), robustnost (tj. vyvinuté modely pomocí velkých tréninkových korpusů) a podporou rychlé domény převod (tj. do nového sektoru ATM s minimální investicí). Dva scénáře poskytnuté poskytovateli letových navigačních služeb byly použity pro testování, dosažení přesnost detekce volacích značek asi 96 % a 95 % pro NATS a ISAVIA, resp.
@inproceedings{BUT187933,
author="MOTLÍČEK, P. and PRASAD, A. and NIGMATULINA, I. and HELMKE, H. and OHNEISER, O. and KLEINERT, M.",
title="Automatic Speech Analysis Framework for ATC Communication in HAAWAII",
booktitle="Proceedings of the 13th SESAR Innovation Days",
year="2023",
pages="1--9",
publisher="SESAR Joint Undertaking",
address="Seville",
url="https://www.sesarju.eu/sites/default/files/documents/sid/2023/Papers/SIDs_2023_paper_72%20final.pdf"
}