Detail publikace

Eat: Enhanced ASR-TTS for Self-Supervised Speech Recognition

BASKAR, M.; BURGET, L.; WATANABE, S.; ASTUDILLO, R.; ČERNOCKÝ, J. Eat: Enhanced ASR-TTS for Self-Supervised Speech Recognition. In ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Toronto, Ontario: IEEE Signal Processing Society, 2021. p. 6753-6757. ISBN: 978-1-7281-7605-5.
Název česky
EAT: Obohacený systém ASR-TTS pro samoučící se rozpoznávání řeči
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Baskar Murali Karthick, Ing., Ph.D.
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Watanabe Shinji (FIT)
ASTUDILLO, R.
Černocký Jan, prof. Dr. Ing. (UPGM)
URL
Klíčová slova

cycle-consistency, self-supervision, sequence-tosequence, speech recognition

Abstrakt

Modely ASR-TTS s vlastním dohledem trpí v podmínkách mimo doménu. Zde navrhujeme vylepšený model ASR-TTS (EAT), který zahrnuje dvě hlavní funkce: 1) Směr ASR! TTS je vybaven odměnou za jazykový model, která penalizuje hypotézy ASR před jeho předáním TTS. 2) Ve směru TTS! ASR je zaveden hyperparametr pro škálování kontextu pozornosti ze syntetizované řeči před odesláním do ASR pro zpracování dat mimo doménu. Strategie školení a účinnost modelu EAT jsou zkoumány za podmínek mimo doménu. Výsledky ukazují, že EAT významně snižuje výkonnostní rozdíl mezi tréninkem s dohledem a tréninkem s vlastním dohledem o absolutních 2,6% a 2,7% u Librispeech a BABEL.

Rok
2021
Strany
6753–6757
Sborník
ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
ISBN
978-1-7281-7605-5
Vydavatel
IEEE Signal Processing Society
Místo
Toronto, Ontario
DOI
UT WoS
000704288407006
EID Scopus
BibTeX
@inproceedings{BUT175793,
  author="BASKAR, M. and BURGET, L. and WATANABE, S. and ASTUDILLO, R. and ČERNOCKÝ, J.",
  title="Eat: Enhanced ASR-TTS for Self-Supervised Speech Recognition",
  booktitle="ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)",
  year="2021",
  pages="6753--6757",
  publisher="IEEE Signal Processing Society",
  address="Toronto, Ontario",
  doi="10.1109/ICASSP39728.2021.9413375",
  isbn="978-1-7281-7605-5",
  url="https://ieeexplore.ieee.org/document/9413375"
}
Nahoru