Detail publikace

LLMs vs Established Text Augmentation Techniques for Classification: When do the Benefits Outweight the Costs?

ČEGIŇ Ján a ŠIMKO Jakub. LLMs vs Established Text Augmentation Techniques for Classification: When do the Benefits Outweight the Costs?. In: Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers). Albuquerque, New Mexico: Association for Computational Linguistics, 2025, s. 10476-10496. ISBN 979-8-8917-6189-6. Dostupné z: https://aclanthology.org/2025.naacl-long.526/
Název česky
LLM versus zavedené techniky augmentace textu pro klasifikaci: Kdy přínosy převyšují náklady?
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Čegiň Ján, Ing. (UPGM FIT VUT)
Šimko Jakub, doc. Ing., Ph.D. (UPGM FIT VUT)
URL
Klíčová slova

Datově efektivní trénování, augmentace dat, analýza

Abstrakt

Generativní velké jazykové modely (LLM) jsou stále častěji využívány pro úlohy augmentace dat, kde jsou textové vzorky parafrázovány pomocí LLM a následně použity pro dolaďování klasifikátorů. Předchozí studie porovnávaly augmentace založené na LLM s tradičními technikami augmentace, avšak výsledky jsou rozporuplné: některé uvádějí nadřazenost LLM augmentací, zatímco jiné poukazují pouze na marginální zlepšení (nebo dokonce zhoršení) výkonu výsledných klasifikátorů. Výzkum, který by jednoznačně potvrdil výhodnost LLM z hlediska poměru přínosů a nákladů oproti zavedeným metodám, dosud převážně chybí. Abychom zjistili, zda (a kdy) je augmentace pomocí LLM výhodná, porovnali jsme dopady nedávných LLM metod s tradičními postupy na 6 datových sadách, 3 klasifikátorech a při 2 způsobech dolaďování. Také jsme měnili počet vstupních vzorků (semen) a generovaných dat, abychom lépe prozkoumali prostor přesnosti výsledných modelů. Nakonec jsme provedli analýzu poměru nákladů a přínosů a ukazujeme, že metody založené na LLM se vyplatí pouze tehdy, pokud je k dispozici velmi malé množství vstupních dat. Navíc v mnoha případech vedou tradiční metody k obdobné nebo dokonce lepší přesnosti modelu.

Rok
2025
Strany
10476-10496
Sborník
Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers)
Konference
2025 Annual Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics, Albuquerque, New Mexico, US
ISBN
979-8-8917-6189-6
Vydavatel
Association for Computational Linguistics
Místo
Albuquerque, New Mexico, US
DOI
BibTeX
@INPROCEEDINGS{FITPUB13329,
   author = "J\'{a}n \v{C}egi\v{n} and Jakub \v{S}imko",
   title = "LLMs vs Established Text Augmentation Techniques for Classification: When do the Benefits Outweight the Costs?",
   pages = "10476--10496",
   booktitle = "Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers)",
   year = 2025,
   location = "Albuquerque, New Mexico, US",
   publisher = "Association for Computational Linguistics",
   ISBN = "979-8-8917-6189-6",
   doi = "10.18653/v1/2025.naacl-long.526",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13329"
}
Nahoru