Detail publikace
BERTraffic: BERT-based Joint Speaker Role and Speaker Change Detection for Air Traffic Control Communications
Sarfjoo Seyyed Saeed
Prasad Amrutha (UPGM)
NIGMATULINA, I.
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
Ondřej Karel, Ing. (FIT)
OHNEISER, O.
HELMKE, H.
Text-based speaker diarization, speaker change detection, speaker role detection, air traffic control communications, chunking
Automatické rozpoznávání řeči (ASR) umožňuje přepis komunikace mezi řídícími letového provozu (ATCO) a piloty letadel. Přepisy se později použijí k extrakci entit pojmenovaných ATC, např. volací značky letadel. Jedním z běžných problémů je detekce řečové aktivity (SAD) a diarizace reproduktoru (SD). Ve stavu selhání, dva nebo více segmentů zůstávají ve stejné nahrávce, což ohrožuje celkový výkon. Navrhujeme systém, který kombinuje SAD a a Model BERT pro provedení detekce změny mluvčího a role mluvčího detekce (SRD) rozdělením ASR transkriptů, tj. SD s definovaným počet reproduktorů spolu s SRD. Navrhovaný model je vyhodnoceno na skutečných veřejných databázích ATC. Náš model BERT SD základní úroveň dosahuje až 10 % a 20 % chybovosti Jaccard na základě tokenů (JER) ve veřejných a soukromých databázích ATC. Dosáhli jsme také relativní zlepšení o 32 % a 7,7 % u JER a chybovosti SD (DER), respektive ve srovnání s VBx, známým systémem SD.1
@inproceedings{BUT185192,
author="ZULUAGA-GOMEZ, J. and SARFJOO, S. and PRASAD, A. and NIGMATULINA, I. and MOTLÍČEK, P. and ONDŘEJ, K. and OHNEISER, O. and HELMKE, H.",
title="BERTraffic: BERT-based Joint Speaker Role and Speaker Change Detection for Air Traffic Control Communications",
booktitle="IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings",
year="2023",
pages="633--640",
publisher="IEEE Signal Processing Society",
address="Doha",
doi="10.1109/SLT54892.2023.10022718",
isbn="978-1-6654-7189-3",
url="https://ieeexplore.ieee.org/document/10022718"
}