Detail publikace

Eat: Enhanced ASR-TTS for Self-Supervised Speech Recognition

BASKAR, M.; BURGET, L.; WATANABE, S.; ASTUDILLO, R.; ČERNOCKÝ, J. Eat: Enhanced ASR-TTS for Self-Supervised Speech Recognition. In ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Toronto, Ontario: IEEE Signal Processing Society, 2021. p. 6753-6757. ISBN: 978-1-7281-7605-5.

Název česky

EAT: Obohacený systém ASR-TTS pro samoučící se rozpoznávání řeči

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Baskar Murali Karthick, Ing., Ph.D.
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Watanabe Shinji (FIT)
ASTUDILLO, R.
Černocký Jan, prof. Dr. Ing. (UPGM)

URL

Klíčová slova

cycle-consistency, self-supervision, sequence-tosequence, speech recognition

Abstrakt

Modely ASR-TTS s vlastním dohledem trpí v podmínkách mimo doménu. Zde navrhujeme vylepšený model ASR-TTS (EAT), který zahrnuje dvě hlavní funkce: 1) Směr ASR! TTS je vybaven odměnou za jazykový model, která penalizuje hypotézy ASR před jeho předáním TTS. 2) Ve směru TTS! ASR je zaveden hyperparametr pro škálování kontextu pozornosti ze syntetizované řeči před odesláním do ASR pro zpracování dat mimo doménu. Strategie školení a účinnost modelu EAT jsou zkoumány za podmínek mimo doménu. Výsledky ukazují, že EAT významně snižuje výkonnostní rozdíl mezi tréninkem s dohledem a tréninkem s vlastním dohledem o absolutních 2,6% a 2,7% u Librispeech a BABEL.

Rok

2021

Strany

6753–6757

Sborník

ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)

ISBN

978-1-7281-7605-5

Vydavatel

IEEE Signal Processing Society

Místo

Toronto, Ontario

DOI

10.1109/ICASSP39728.2021.9413375

UT WoS

000704288407006

EID Scopus

2-s2.0-85112201924

BibTeX

@inproceedings{BUT175793,
  author="BASKAR, M. and BURGET, L. and WATANABE, S. and ASTUDILLO, R. and ČERNOCKÝ, J.",
  title="Eat: Enhanced ASR-TTS for Self-Supervised Speech Recognition",
  booktitle="ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)",
  year="2021",
  pages="6753--6757",
  publisher="IEEE Signal Processing Society",
  address="Toronto, Ontario",
  doi="10.1109/ICASSP39728.2021.9413375",
  isbn="978-1-7281-7605-5",
  url="https://ieeexplore.ieee.org/document/9413375"
}