Detail publikace

How Does Pre-Trained Wav2Vec 2.0 Perform on Domain-Shifted ASR? an Extensive Benchmark on Air Traffic Control Communications

ZULUAGA-GOMEZ, J.; PRASAD, A.; NIGMATULINA, I.; SARFJOO, S.; MOTLÍČEK, P.; KLEINERT, M.; HELMKE, H.; OHNEISER, O.; ZHAN, Q. How Does Pre-Trained Wav2Vec 2.0 Perform on Domain-Shifted ASR? an Extensive Benchmark on Air Traffic Control Communications. In IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings. Doha: IEEE Signal Processing Society, 2023. p. 205-212. ISBN: 978-1-6654-7189-3.
Název česky
Jak si vede předtrénovaný Wav2Vec 2.0 v ASR s posunem domény? Rozsáhlé testování na komunikaci v řízení letového provozu
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
ZULUAGA-GOMEZ, J.
Prasad Amrutha (UPGM)
NIGMATULINA, I.
Sarfjoo Seyyed Saeed
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
KLEINERT, M.
HELMKE, H.
OHNEISER, O.
ZHAN, Q.
URL
Klíčová slova

Automatic speech recognition, Wav2Vec 2.0, self-supervised pre-training, air traffic control communications.

Abstrakt

Nedávná práce na před-trénovaném s vlastním dohledem se zaměřuje na pákový efekt rozsáhlá neoznačená řečová data pro vytvoření robustního end-to-end (E2E) akustické modely (AM), které lze později jemně doladit na downstreamu úkoly, např. automatické rozpoznávání řeči (ASR). Přesto málo funguje zkoumal dopad na výkon, když vlastnosti dat podstatně se liší mezi předtréninkovou a dolaďovací fází, nazývaný posun domény. Na tento scénář se zaměřujeme analýzou robustnosti modelů Wav2Vec 2.0 a XLS-R na následném ASR pro zcela nevídanou oblast, komunikace řízení letového provozu (ATC). Testujeme tyto dva modely na několika open-source a náročné databáze ATC s poměrem signálu k šumu mezi 5 až 20 dB. Relativní snížení chybovosti slov (WER) mezi 20 % ve srovnání s hybridními základními hodnotami ASR pouze doladěním akustických modelů E2E s menším zlomkem označené údaje. Analyzujeme WER na scénáři s nízkými zdroji a genderová zaujatost nesená jedním datovým souborem ATC.

Rok
2023
Strany
205–212
Sborník
IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings
Konference
2022 IEEE Konference o technologii mluveného jazyka (SLT), Doha, QA
ISBN
978-1-6654-7189-3
Vydavatel
IEEE Signal Processing Society
Místo
Doha
DOI
UT WoS
000968851900028
EID Scopus
BibTeX
@inproceedings{BUT185194,
  author="ZULUAGA-GOMEZ, J. and PRASAD, A. and NIGMATULINA, I. and SARFJOO, S. and MOTLÍČEK, P. and KLEINERT, M. and HELMKE, H. and OHNEISER, O. and ZHAN, Q.",
  title="How Does Pre-Trained Wav2Vec 2.0 Perform on Domain-Shifted ASR? an Extensive Benchmark on Air Traffic Control Communications",
  booktitle="IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings",
  year="2023",
  pages="205--212",
  publisher="IEEE Signal Processing Society",
  address="Doha",
  doi="10.1109/SLT54892.2023.10022724",
  isbn="978-1-6654-7189-3",
  url="https://ieeexplore.ieee.org/document/10022724"
}
Nahoru