Detail publikace
Speech and Language Recognition with Low-rank Adaptation of Pretrained Models
Madikeri Srikanth
KHALIL, D.
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
SCHUEPBACH, C.
parameter reduction, language identification, speech recognition, wav2vec2.0
Doladění velkých předtrénovaných modelů vyžaduje značné výpočetní zdroje
a představuje praktická omezení. Většinu z celkového počtu parametrů v těchto
modelech využívají plně propojené vrstvy. V této práci zvažujeme použití
semi-ortogonálního omezení, po kterém následuje úplné doladění plně propojených
vrstev, což výrazně snižuje parametry modelu bez obětování účinnosti v následných
úlohách. Konkrétně uvažujeme modely wav2vec2.0 XLS-R a Whisper pro automatické
rozpoznávání řeči a rozpoznávání jazyka. Naše výsledky ukazují, že můžeme zmenšit
velikost modelu přibližně o 24 % jak během tréninku, tak během doby inference
s absolutním poklesem výkonu o 0,7 % pro XLS-R a bez poklesu výkonu pro Whisper
pro ASR. V kombinaci s výkonnostně efektivním tréninkem s adaptéry nízké úrovně
lze požadavky na zdroje pro trénink dále snížit až o 90 %
@inproceedings{BUT193370,
author="PRASAD, A. and MADIKERI, S. and KHALIL, D. and MOTLÍČEK, P. and SCHUEPBACH, C.",
title="Speech and Language Recognition with Low-rank Adaptation of Pretrained Models",
booktitle="Proceedings of Interspeech",
year="2024",
journal="Proceedings of Interspeech",
volume="2024",
number="9",
pages="2825--2829",
publisher="International Speech Communication Association",
address="Kos Island",
doi="10.21437/Interspeech.2024-2187",
issn="1990-9772",
url="https://www.isca-archive.org/interspeech_2024/prasad24_interspeech.html"
}