Detail publikace

Strategies for Improving Low Resource Speech to Text Translation Relying on Pre-trained ASR Models

KESIRAJU, S.; SARVAŠ, M.; PAVLÍČEK, T.; MACAIRE, C.; CIUBA, A. Strategies for Improving Low Resource Speech to Text Translation Relying on Pre-trained ASR Models. In Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Proceedings of Interspeech. Dublin: International Speech Communication Association, 2023. p. 2148-2152. ISSN: 1990-9772.
Název česky
Strategie pro zlepšení překladu řeči na text s omezenými zdroji zdroji založená na předtrénovaných modelech ASR
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Kesiraju Santosh, Ph.D. (UPGM)
Sarvaš Marek, Ing. (UPGM)
Pavlíček Tomáš, Ing.
MACAIRE, C.
CIUBA, A.
URL
Klíčová slova

speech translation, low-resource, multilingual, speech recognition

Abstrakt

Tento článek představuje techniky a poznatky pro zlepšení výkonu nízkozdrojového překladu řeči do textu (ST). Provedli jsme experimenty se simulovanými i reallow nastaveními zdrojů, na jazykových párech angličtina - portugalština a tamasheq - francouzština. S použitím rámce kodér-dekodér pro ST naše výsledky ukazují, že vícejazyčný systém automatického rozpoznávání řeči funguje jako dobrá inicializace ve scénářích s nízkými zdroji. Kromě toho použití CTC jako dalšího cíle pro překlad během školení a dekódování pomáhá změnit pořadí vnitřních reprezentací a zlepšuje konečný překlad. Prostřednictvím našich experimentů se snažíme identifikovat různé faktory (inicializace, cíle a hyperparametry), které nejvíce přispívají ke zlepšení nastavení s nízkými zdroji. S pouhými 300 hodinami předtréninkových dat dosáhl náš model skóre 7,3 BLEU na údajích Tamasheq - French, čímž překonal předchozí publikované práce z IWSLT 2022 o 1,6 bodu.

Rok
2023
Strany
2148–2152
Časopis
Proceedings of Interspeech, roč. 2023, č. 08, ISSN 1990-9772
Sborník
Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH
Vydavatel
International Speech Communication Association
Místo
Dublin
DOI
EID Scopus
BibTeX
@inproceedings{BUT185572,
  author="KESIRAJU, S. and SARVAŠ, M. and PAVLÍČEK, T. and MACAIRE, C. and CIUBA, A.",
  title="Strategies for Improving Low Resource Speech to Text Translation Relying on Pre-trained ASR Models",
  booktitle="Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
  year="2023",
  journal="Proceedings of Interspeech",
  volume="2023",
  number="08",
  pages="2148--2152",
  publisher="International Speech Communication Association",
  address="Dublin",
  doi="10.21437/Interspeech.2023-2506",
  issn="1990-9772",
  url="https://www.isca-speech.org/archive/pdfs/interspeech_2023/kesiraju23_interspeech.pdf"
}
Nahoru