Detail publikace

Jointly Trained Transformers Models for Spoken Language Translation

VYDANA, H.; KARAFIÁT, M.; ŽMOLÍKOVÁ, K.; BURGET, L.; ČERNOCKÝ, J. Jointly Trained Transformers Models for Spoken Language Translation. In ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Toronto, Ontario: IEEE Signal Processing Society, 2021. p. 7513-7517. ISBN: 978-1-7281-7605-5.
Název česky
Společně trénované modely založené na Transformerech pro automatický překlad mluvené řeči
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

Spoken Language Translation, Transformers, Joint training, How2 dataset, Auxiliary loss, ASR objective, Coupled decoding, End-to-End differentiable pipeline.

Abstrakt

End-to-end a kaskádové (ASR-MT) systémy překladu mluveného jazyka (SLT) dosahují srovnatelných výkonů, avšak při překládání hypotézy ASR ve srovnání s použitím vstupního textu Oracle je pozorována velká degradace. V této práci je snížení výkonu sníženo vytvořením end-to-end diferencovatelného kanálu mezi systémy ASR a MT. V této práci trénujeme systémy SLT s cílem ASR jako pomocnou ztrátu a obě sítě jsou propojeny prostřednictvím neurálních skrytých reprezentací. Toto školení má end-to-end diferencovatelnou cestu s ohledem na funkci konečného cíle a využívá cíl ASR pro lepší optimalizaci. Tato architektura vylepšila skóre BLEU z 41,21 na 44,69. Sestavení navrhované architektury s nezávisle trénovanými systémy ASR a MT dále zlepšilo skóre BLEU ze 44,69 na 46,9. Všechny experimenty jsou hlášeny na úkolu překladu řeči z angličtiny do portugalštiny pomocí korpusu How2. Konečné skóre BLEU je srovnatelné s nejlepším systémem překladu řeči v datové sadě How2 bez použití jakýchkoli dalších tréninkových dat a jazykového modelu a použití méně parametrů.

Rok
2021
Strany
7513–7517
Sborník
ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
ISBN
978-1-7281-7605-5
Vydavatel
IEEE Signal Processing Society
Místo
Toronto, Ontario
DOI
UT WoS
000704288407158
EID Scopus
BibTeX
@inproceedings{BUT175791,
  author="Hari Krishna {Vydana} and Martin {Karafiát} and Kateřina {Žmolíková} and Lukáš {Burget} and Jan {Černocký}",
  title="Jointly Trained Transformers Models for Spoken Language Translation",
  booktitle="ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)",
  year="2021",
  pages="7513--7517",
  publisher="IEEE Signal Processing Society",
  address="Toronto, Ontario",
  doi="10.1109/ICASSP39728.2021.9414159",
  isbn="978-1-7281-7605-5",
  url="https://www.fit.vut.cz/research/publication/12522/"
}
Nahoru