Detail publikace
Usted: Improving ASR with a Unified Speech and Text Encoder-Decoder
sequence-to-sequence, multitask, end-to-end ASR, masked language model, machine translation
Zlepšení komplexního rozpoznávání řeči začleněním externích textových dat je dlouhodobým tématem výzkumu. Nedávno se zaměřilo na školení modelů E2E ASR, které využívají výkonnostních výhod externích textových dat, aniž by vznikaly dodatečné náklady na vyhodnocení externího jazykového modelu v době odvození. V této práci navrhujeme trénovací model ASR společně se sadou pomocných úloh text-to-text, se kterými sdílí dekodér a části kodéru. Když společně trénujeme ASR a maskovaný jazykový model s 960hodinovými daty Librispeech a Opensubtitles, pozorujeme snížení WER o 16 %, resp. inferenční čas a snížení o 6 % a 8 % ve srovnání se silnější základní linií MUTE-L, která trénuje dekodér se stejnými textovými daty jako náš model. Dalších vylepšení dosáhneme, když trénujeme maskovaný jazykový model na datech Librispeech nebo když používáme strojový překlad jako pomocnou úlohu, aniž bychom výrazně obětovali výkon na samotné úloze.
@inproceedings{BUT178379,
author="Bolaji {Yusuf} and Ankur {Gandhe} and Alex {Sokolov}",
title="Usted: Improving ASR with a Unified Speech and Text Encoder-Decoder",
booktitle="ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
year="2022",
pages="8297--8301",
publisher="IEEE Signal Processing Society",
address="Singapore",
doi="10.1109/ICASSP43922.2022.9746554",
isbn="978-1-6654-0540-9",
url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9746554"
}