Detail publikace
Detecting English Speech in the Air Traffic Control Voice Communication
Kesiraju Santosh, Ph.D. (UPGM)
Novotný Ondřej, Ing., Ph.D.
Kocour Martin, Ing. (UPGM)
Veselý Karel, Ing., Ph.D. (UPGM)
Černocký Jan, prof. Dr. Ing. (UPGM)
rozpoznávání řeči, detekce jazyka, x-vector extractor, akustický model, letecká komunikace, sběr dat, text embeddings, Bayesian metody
Vývoj aplikací podporujících hlas v kokpitu vyžaduje reálnou a anotovanou datovou sadu. Spustili jsme komunitní platformu pro shromažďování řeči řízení letového provozu (ATC), celosvětově v projektu ATCO2. Filtrování neanglické řeči je jednou z hlavních součástí zpracování dat. Navrhovaný systém detekce angličtiny (ELD) je založen na vložení z Bayesovkého subprostorového multinomického modelu. Je trénován na záměny slov ze systému ASR. Je robustní, snadno se trénuje a má nízkou náročnost. V ATC doméně jsme dosáhli 0,0439 chybovosti (EER), což je relativní snížení o 50% ve srovnání s nejmodernějším akustickým systémem ELD založeným na x-vektorech. Dále jsme dosáhli EER 0,1352, což je 33% relativní snížení ve srovnání s akustickým ELD, v podmínkách neznámého jazyka (mimo doménu). Plánujeme zveřejnit datovou sadu z projektu ATCO2.
@inproceedings{BUT193145,
author="Igor {Szőke} and Santosh {Kesiraju} and Ondřej {Novotný} and Martin {Kocour} and Karel {Veselý} and Jan {Černocký}",
title="Detecting English Speech in the Air Traffic Control Voice Communication",
booktitle="Proceedings of Interspeech 2021",
year="2021",
pages="246--250",
address="Brno"
}