Detail publikace

BERTraffic: BERT-based Joint Speaker Role and Speaker Change Detection for Air Traffic Control Communications

ZULUAGA-GOMEZ, J.; SARFJOO, S.; PRASAD, A.; NIGMATULINA, I.; MOTLÍČEK, P.; ONDŘEJ, K.; OHNEISER, O.; HELMKE, H. BERTraffic: BERT-based Joint Speaker Role and Speaker Change Detection for Air Traffic Control Communications. In IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings. Doha: IEEE Signal Processing Society, 2023. p. 633-640. ISBN: 978-1-6654-7189-3.
Název česky
BERTraffic: Společná detekce role mluvčího a změny mluvčího pro komunikaci v řízení letového provozu založená na BERT
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
ZULUAGA-GOMEZ, J.
Sarfjoo Seyyed Saeed
Prasad Amrutha (UPGM)
NIGMATULINA, I.
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
Ondřej Karel, Ing. (FIT)
OHNEISER, O.
HELMKE, H.
URL
Klíčová slova

Text-based speaker diarization, speaker change detection, speaker role detection, air traffic control communications, chunking

Abstrakt

Automatické rozpoznávání řeči (ASR) umožňuje přepis komunikace mezi řídícími letového provozu (ATCO) a piloty letadel. Přepisy se později použijí k extrakci entit pojmenovaných ATC, např. volací značky letadel. Jedním z běžných problémů je detekce řečové aktivity (SAD) a diarizace reproduktoru (SD). Ve stavu selhání, dva nebo více segmentů zůstávají ve stejné nahrávce, což ohrožuje celkový výkon. Navrhujeme systém, který kombinuje SAD a a Model BERT pro provedení detekce změny mluvčího a role mluvčího detekce (SRD) rozdělením ASR transkriptů, tj. SD s definovaným počet reproduktorů spolu s SRD. Navrhovaný model je vyhodnoceno na skutečných veřejných databázích ATC. Náš model BERT SD základní úroveň dosahuje až 10 % a 20 % chybovosti Jaccard na základě tokenů (JER) ve veřejných a soukromých databázích ATC. Dosáhli jsme také relativní zlepšení o 32 % a 7,7 % u JER a chybovosti SD (DER), respektive ve srovnání s VBx, známým systémem SD.1

Rok
2023
Strany
633–640
Sborník
IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings
Konference
2022 IEEE Konference o technologii mluveného jazyka (SLT), Doha, QA
ISBN
978-1-6654-7189-3
Vydavatel
IEEE Signal Processing Society
Místo
Doha
DOI
UT WoS
000968851900086
EID Scopus
BibTeX
@inproceedings{BUT185192,
  author="ZULUAGA-GOMEZ, J. and SARFJOO, S. and PRASAD, A. and NIGMATULINA, I. and MOTLÍČEK, P. and ONDŘEJ, K. and OHNEISER, O. and HELMKE, H.",
  title="BERTraffic: BERT-based Joint Speaker Role and Speaker Change Detection for Air Traffic Control Communications",
  booktitle="IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings",
  year="2023",
  pages="633--640",
  publisher="IEEE Signal Processing Society",
  address="Doha",
  doi="10.1109/SLT54892.2023.10022718",
  isbn="978-1-6654-7189-3",
  url="https://ieeexplore.ieee.org/document/10022718"
}
Nahoru