Detail publikace

LLMs vs Established Text Augmentation Techniques for Classification: When do the Benefits Outweight the Costs?

ČEGIŇ Ján a ŠIMKO Jakub. LLMs vs Established Text Augmentation Techniques for Classification: When do the Benefits Outweight the Costs?. In: Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers). Albuquerque, New Mexico: Association for Computational Linguistics, 2025, s. 10476-10496. ISBN 979-8-8917-6189-6. Dostupné z: https://aclanthology.org/2025.naacl-long.526/

Název česky

LLM versus zavedené techniky augmentace textu pro klasifikaci: Kdy přínosy převyšují náklady?

Typ

článek ve sborníku konference

Jazyk

angličtina

Autoři

Čegiň Ján, Ing. (UPGM FIT VUT)
Šimko Jakub, doc. Ing., Ph.D. (UPGM FIT VUT)

URL

https://aclanthology.org/2025.naacl-long.526/

Klíčová slova

Datově efektivní trénování, augmentace dat, analýza

Abstrakt

Generativní velké jazykové modely (LLM) jsou stále častěji využívány pro úlohy augmentace dat, kde jsou textové vzorky parafrázovány pomocí LLM a následně použity pro dolaďování klasifikátorů. Předchozí studie porovnávaly augmentace založené na LLM s tradičními technikami augmentace, avšak výsledky jsou rozporuplné: některé uvádějí nadřazenost LLM augmentací, zatímco jiné poukazují pouze na marginální zlepšení (nebo dokonce zhoršení) výkonu výsledných klasifikátorů. Výzkum, který by jednoznačně potvrdil výhodnost LLM z hlediska poměru přínosů a nákladů oproti zavedeným metodám, dosud převážně chybí. Abychom zjistili, zda (a kdy) je augmentace pomocí LLM výhodná, porovnali jsme dopady nedávných LLM metod s tradičními postupy na 6 datových sadách, 3 klasifikátorech a při 2 způsobech dolaďování. Také jsme měnili počet vstupních vzorků (semen) a generovaných dat, abychom lépe prozkoumali prostor přesnosti výsledných modelů. Nakonec jsme provedli analýzu poměru nákladů a přínosů a ukazujeme, že metody založené na LLM se vyplatí pouze tehdy, pokud je k dispozici velmi malé množství vstupních dat. Navíc v mnoha případech vedou tradiční metody k obdobné nebo dokonce lepší přesnosti modelu.

Rok

2025

Strany

10476-10496

Sborník

Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers)

Konference

2025 Annual Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics, Albuquerque, New Mexico, US

ISBN

979-8-8917-6189-6

Vydavatel

Association for Computational Linguistics

Místo

Albuquerque, New Mexico, US

DOI

10.18653/v1/2025.naacl-long.526

BibTeX

@INPROCEEDINGS{FITPUB13329,
   author = "J\'{a}n \v{C}egi\v{n} and Jakub \v{S}imko",
   title = "LLMs vs Established Text Augmentation Techniques for Classification: When do the Benefits Outweight the Costs?",
   pages = "10476--10496",
   booktitle = "Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers)",
   year = 2025,
   location = "Albuquerque, New Mexico, US",
   publisher = "Association for Computational Linguistics",
   ISBN = "979-8-8917-6189-6",
   doi = "10.18653/v1/2025.naacl-long.526",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13329"
}