Detail publikace
How Does Pre-Trained Wav2Vec 2.0 Perform on Domain-Shifted ASR? an Extensive Benchmark on Air Traffic Control Communications
Prasad Amrutha (UPGM)
NIGMATULINA, I.
Sarfjoo Seyyed Saeed
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
KLEINERT, M.
HELMKE, H.
OHNEISER, O.
ZHAN, Q.
Automatic speech recognition, Wav2Vec 2.0, self-supervised pre-training, air traffic control communications.
Nedávná práce na před-trénovaném s vlastním dohledem se zaměřuje na pákový efekt rozsáhlá neoznačená řečová data pro vytvoření robustního end-to-end (E2E) akustické modely (AM), které lze později jemně doladit na downstreamu úkoly, např. automatické rozpoznávání řeči (ASR). Přesto málo funguje zkoumal dopad na výkon, když vlastnosti dat podstatně se liší mezi předtréninkovou a dolaďovací fází, nazývaný posun domény. Na tento scénář se zaměřujeme analýzou robustnosti modelů Wav2Vec 2.0 a XLS-R na následném ASR pro zcela nevídanou oblast, komunikace řízení letového provozu (ATC). Testujeme tyto dva modely na několika open-source a náročné databáze ATC s poměrem signálu k šumu mezi 5 až 20 dB. Relativní snížení chybovosti slov (WER) mezi 20 % ve srovnání s hybridními základními hodnotami ASR pouze doladěním akustických modelů E2E s menším zlomkem označené údaje. Analyzujeme WER na scénáři s nízkými zdroji a genderová zaujatost nesená jedním datovým souborem ATC.
@inproceedings{BUT185194,
author="ZULUAGA-GOMEZ, J. and PRASAD, A. and NIGMATULINA, I. and SARFJOO, S. and MOTLÍČEK, P. and KLEINERT, M. and HELMKE, H. and OHNEISER, O. and ZHAN, Q.",
title="How Does Pre-Trained Wav2Vec 2.0 Perform on Domain-Shifted ASR? an Extensive Benchmark on Air Traffic Control Communications",
booktitle="IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings",
year="2023",
pages="205--212",
publisher="IEEE Signal Processing Society",
address="Doha",
doi="10.1109/SLT54892.2023.10022724",
isbn="978-1-6654-7189-3",
url="https://ieeexplore.ieee.org/document/10022724"
}