Detail publikace
LLMs vs Established Text Augmentation Techniques for Classification: When do the Benefits Outweight the Costs?
Datově efektivní trénování, augmentace dat, analýza
Generativní velké jazykové modely (LLM) jsou stále častěji využívány pro úlohy augmentace dat, kde jsou textové vzorky parafrázovány pomocí LLM a následně použity pro dolaďování klasifikátorů. Předchozí studie porovnávaly augmentace založené na LLM s tradičními technikami augmentace, avšak výsledky jsou rozporuplné: některé uvádějí nadřazenost LLM augmentací, zatímco jiné poukazují pouze na marginální zlepšení (nebo dokonce zhoršení) výkonu výsledných klasifikátorů. Výzkum, který by jednoznačně potvrdil výhodnost LLM z hlediska poměru přínosů a nákladů oproti zavedeným metodám, dosud převážně chybí. Abychom zjistili, zda (a kdy) je augmentace pomocí LLM výhodná, porovnali jsme dopady nedávných LLM metod s tradičními postupy na 6 datových sadách, 3 klasifikátorech a při 2 způsobech dolaďování. Také jsme měnili počet vstupních vzorků (semen) a generovaných dat, abychom lépe prozkoumali prostor přesnosti výsledných modelů. Nakonec jsme provedli analýzu poměru nákladů a přínosů a ukazujeme, že metody založené na LLM se vyplatí pouze tehdy, pokud je k dispozici velmi malé množství vstupních dat. Navíc v mnoha případech vedou tradiční metody k obdobné nebo dokonce lepší přesnosti modelu.
@INPROCEEDINGS{FITPUB13329, author = "J\'{a}n \v{C}egi\v{n} and Jakub \v{S}imko", title = "LLMs vs Established Text Augmentation Techniques for Classification: When do the Benefits Outweight the Costs?", pages = "10476--10496", booktitle = "Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers)", year = 2025, location = "Albuquerque, New Mexico, US", publisher = "Association for Computational Linguistics", ISBN = "979-8-8917-6189-6", doi = "10.18653/v1/2025.naacl-long.526", language = "english", url = "https://www.fit.vut.cz/research/publication/13329" }