Detail publikace
Eat: Enhanced ASR-TTS for Self-Supervised Speech Recognition
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Watanabe Shinji (FIT)
ASTUDILLO, R.
Černocký Jan, prof. Dr. Ing. (UPGM)
cycle-consistency, self-supervision, sequence-tosequence, speech recognition
Modely ASR-TTS s vlastním dohledem trpí v podmínkách mimo doménu. Zde navrhujeme vylepšený model ASR-TTS (EAT), který zahrnuje dvě hlavní funkce: 1) Směr ASR! TTS je vybaven odměnou za jazykový model, která penalizuje hypotézy ASR před jeho předáním TTS. 2) Ve směru TTS! ASR je zaveden hyperparametr pro škálování kontextu pozornosti ze syntetizované řeči před odesláním do ASR pro zpracování dat mimo doménu. Strategie školení a účinnost modelu EAT jsou zkoumány za podmínek mimo doménu. Výsledky ukazují, že EAT významně snižuje výkonnostní rozdíl mezi tréninkem s dohledem a tréninkem s vlastním dohledem o absolutních 2,6% a 2,7% u Librispeech a BABEL.
@inproceedings{BUT175793,
author="BASKAR, M. and BURGET, L. and WATANABE, S. and ASTUDILLO, R. and ČERNOCKÝ, J.",
title="Eat: Enhanced ASR-TTS for Self-Supervised Speech Recognition",
booktitle="ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)",
year="2021",
pages="6753--6757",
publisher="IEEE Signal Processing Society",
address="Toronto, Ontario",
doi="10.1109/ICASSP39728.2021.9413375",
isbn="978-1-7281-7605-5",
url="https://ieeexplore.ieee.org/document/9413375"
}