Detail publikace
Strategies for Improving Low Resource Speech to Text Translation Relying on Pre-trained ASR Models
speech translation, low-resource, multilingual, speech recognition
Tento článek představuje techniky a poznatky pro zlepšení výkonu nízkozdrojového překladu řeči do textu (ST). Provedli jsme experimenty se simulovanými i reallow nastaveními zdrojů, na jazykových párech angličtina - portugalština a tamasheq - francouzština. S použitím rámce kodér-dekodér pro ST naše výsledky ukazují, že vícejazyčný systém automatického rozpoznávání řeči funguje jako dobrá inicializace ve scénářích s nízkými zdroji. Kromě toho použití CTC jako dalšího cíle pro překlad během školení a dekódování pomáhá změnit pořadí vnitřních reprezentací a zlepšuje konečný překlad. Prostřednictvím našich experimentů se snažíme identifikovat různé faktory (inicializace, cíle a hyperparametry), které nejvíce přispívají ke zlepšení nastavení s nízkými zdroji. S pouhými 300 hodinami předtréninkových dat dosáhl náš model skóre 7,3 BLEU na údajích Tamasheq - French, čímž překonal předchozí publikované práce z IWSLT 2022 o 1,6 bodu.
@inproceedings{BUT185572,
author="KESIRAJU, S. and SARVAŠ, M. and PAVLÍČEK, T. and MACAIRE, C. and CIUBA, A.",
title="Strategies for Improving Low Resource Speech to Text Translation Relying on Pre-trained ASR Models",
booktitle="Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
year="2023",
journal="Proceedings of Interspeech",
volume="2023",
number="08",
pages="2148--2152",
publisher="International Speech Communication Association",
address="Dublin",
doi="10.21437/Interspeech.2023-2506",
issn="1990-9772",
url="https://www.isca-speech.org/archive/pdfs/interspeech_2023/kesiraju23_interspeech.pdf"
}