Detail publikace
Fighting Randomness With Randomness: Mitigating Optimisation Instability of Fine-Tuning Using Ensemble and Noise Regularisation
Čegiň Ján, Ing. (UPGM)
Belanec Róbert, Bc. (UPGM)
SRBA, I.
Šimko Jakub, doc. Ing., PhD. (UPGM)
Bieliková Mária, prof. Ing., Ph.D. (UPGM)
NLP in resource-constrained settings, parameter-efficient-training, data-efficient training, data augmentation, fine-tuning, mitigating randomness, ensembling
Hoci doladenie predtrénovaných jazykových modelov vo všeobecnosti pomáha prekonať nedostatok označených trénovacích vzoriek, zároveň vykazuje nestabilitu výkonu modelu. Táto nestabilita pochádza najmä z náhodnosti pri inicializácii alebo miešaní dát. Na riešenie tohto problému sa výskumníci zvyčajne uchyľujú k úpravám tréningového procesu alebo k rozšíreniu dostupných vzoriek, čo však často vedie k zvýšeniu výpočtových nákladov. Navrhujeme novú stratégiu zmiernenia, nazvanú Oneskorené ansámblovanie s interpoláciou šumu (DENI), ktorá využíva výhody ansámblovania, regularizácie šumom a interpolácie modelov, pričom zachováva výpočtovú efektívnosť. Porovnávame DENI s 9 reprezentatívnymi stratégiami zmiernenia naprieč 3 modelmi, 4 stratégiami doladenia a 7 datasetmi na klasifikáciu textu. Ukazujeme, že 1) DENI prekonáva najúspešnejšiu stratégiu zmiernenia (ansámblovanie), pričom používa len zlomok jej výpočtových nákladov; 2) stratégie zmiernenia sú užitočné aj pre metódy efektívneho doladenia parametrov (PEFT), ktoré v konkrétnych prípadoch prekonávajú plné doladenie; a 3) kombinácia DENI s rozšírením dát často vedie k ešte efektívnejšiemu zmierneniu nestability.
@inproceedings{BUT193319,
author="PECHER, B. and ČEGIŇ, J. and BELANEC, R. and SRBA, I. and ŠIMKO, J. and BIELIKOVÁ, M.",
title="Fighting Randomness With Randomness: Mitigating Optimisation Instability of Fine-Tuning Using Ensemble and Noise Regularisation",
booktitle="Findings of the Association for Computational Linguistics: EMNLP 2024",
year="2024",
pages="11005--11044",
publisher="Association for Computational Linguistics",
address="Miami",
doi="10.18653/v1/2024.findings-emnlp.644",
isbn="979-8-8917-6168-1"
}