Detail publikace

Usted: Improving ASR with a Unified Speech and Text Encoder-Decoder

YUSUF, B.; GANDHE, A.; SOKOLOV, A. Usted: Improving ASR with a Unified Speech and Text Encoder-Decoder. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Singapore: IEEE Signal Processing Society, 2022. p. 8297-8301. ISBN: 978-1-6654-0540-9.
Název česky
Zlepšení ASR pomocí unifikovaného řečového a textového enkodéru-dekodéru
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Yusuf Bolaji (UPGM)
Gandhe Ankur
Sokolov Alex
URL
Klíčová slova

sequence-to-sequence, multitask, end-to-end ASR, masked language model, machine translation

Abstrakt

Zlepšení komplexního rozpoznávání řeči začleněním externích textových dat je dlouhodobým tématem výzkumu. Nedávno se zaměřilo na školení modelů E2E ASR, které využívají výkonnostních výhod externích textových dat, aniž by vznikaly dodatečné náklady na vyhodnocení externího jazykového modelu v době odvození. V této práci navrhujeme trénovací model ASR společně se sadou pomocných úloh text-to-text, se kterými sdílí dekodér a části kodéru. Když společně trénujeme ASR a maskovaný jazykový model s 960hodinovými daty Librispeech a Opensubtitles, pozorujeme snížení WER o 16 %, resp. inferenční čas a snížení o 6 % a 8 % ve srovnání se silnější základní linií MUTE-L, která trénuje dekodér se stejnými textovými daty jako náš model. Dalších vylepšení dosáhneme, když trénujeme maskovaný jazykový model na datech Librispeech nebo když používáme strojový překlad jako pomocnou úlohu, aniž bychom výrazně obětovali výkon na samotné úloze.

Rok
2022
Strany
8297–8301
Sborník
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
ISBN
978-1-6654-0540-9
Vydavatel
IEEE Signal Processing Society
Místo
Singapore
DOI
UT WoS
000864187908121
EID Scopus
BibTeX
@inproceedings{BUT178379,
  author="Bolaji {Yusuf} and Ankur {Gandhe} and Alex {Sokolov}",
  title="Usted: Improving ASR with a Unified Speech and Text Encoder-Decoder",
  booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
  year="2022",
  pages="8297--8301",
  publisher="IEEE Signal Processing Society",
  address="Singapore",
  doi="10.1109/ICASSP43922.2022.9746554",
  isbn="978-1-6654-0540-9",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9746554"
}
Nahoru