Detail publikace
Effects of diversity incentives on sample diversity and downstream model performance in LLM-based text augmentation
Pecher Branislav, Ing. (UPGM)
Šimko Jakub, doc. Ing., PhD. (UPGM)
SRBA, I.
Bieliková Mária, prof. Ing., Ph.D. (UPGM)
a další
velké jazykové modely, augmentace dat, lexikální diverzita, augmentace textu,
crowdsourcing
Nejnovější generativní velké jazykové modely (LLM) našly své uplatnění v úlohách
rozšiřování dat, kde jsou malé počty textových vzorků parafrázovány LLM a poté
použity k doladění navazujících modelů. Je však zapotřebí dalšího výzkumu, aby
bylo možné posoudit, jak různé výzvy, strategie výběru výchozích dat, metody
filtrování nebo nastavení modelu ovlivňují kvalitu parafrázovaných dat (a
následných modelů). V této studii zkoumáme tři metody pro rozmanitost textu dobře
zavedené v crowdsourcingu: tabuizovaná slova, náznaky dřívějších odlehlých řešení
a řetězení předchozích odlehlých řešení. Pomocí těchto podnětových metod jako
součásti instrukcí LLM rozšiřujících textové datové sady měříme jejich účinky na
lexikální rozmanitost generovaných textů a na výkonu následného modelu.
Porovnáváme účinky na 5 různých LLM, 6 souborech dat a 2 navazujících modelech.
Ukazujeme, že rozmanitost nejvíce zvyšují tabuizovaná slova, ale výkon následného
modelu je nejvyšší s nápovědami.
@inproceedings{BUT193293,
author="ČEGIŇ, J. and PECHER, B. and ŠIMKO, J. and SRBA, I. and BIELIKOVÁ, M.",
title="Effects of diversity incentives on sample diversity and downstream model performance in LLM-based text augmentation",
booktitle="Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
year="2024",
pages="13148--13171",
publisher="Association for Computational Linguistics",
address="Bangkok",
doi="10.18653/v1/2024.acl-long.710",
isbn="979-8-8917-6094-3",
url="https://aclanthology.org/2024.acl-long.710/"
}