Detail publikace

Effects of diversity incentives on sample diversity and downstream model performance in LLM-based text augmentation

ČEGIŇ, J.; PECHER, B.; ŠIMKO, J.; SRBA, I.; BIELIKOVÁ, M. Effects of diversity incentives on sample diversity and downstream model performance in LLM-based text augmentation. Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Bangkok: Association for Computational Linguistics, 2024. p. 13148-13171. ISBN: 979-8-8917-6094-3.
Název česky
Účinky podnětu rozmanitosti na rozmanitost vzorků a výkon modelu při augmentaci textu na bázi LLM
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

velké jazykové modely, augmentace dat, lexikální diverzita, augmentace textu,
crowdsourcing

Abstrakt

Nejnovější generativní velké jazykové modely (LLM) našly své uplatnění v úlohách
rozšiřování dat, kde jsou malé počty textových vzorků parafrázovány LLM a poté
použity k doladění navazujících modelů. Je však zapotřebí dalšího výzkumu, aby
bylo možné posoudit, jak různé výzvy, strategie výběru výchozích dat, metody
filtrování nebo nastavení modelu ovlivňují kvalitu parafrázovaných dat (a
následných modelů). V této studii zkoumáme tři metody pro rozmanitost textu dobře
zavedené v crowdsourcingu: tabuizovaná slova, náznaky dřívějších odlehlých řešení
a řetězení předchozích odlehlých řešení. Pomocí těchto podnětových metod jako
součásti instrukcí LLM rozšiřujících textové datové sady měříme jejich účinky na
lexikální rozmanitost generovaných textů a na výkonu následného modelu.
Porovnáváme účinky na 5 různých LLM, 6 souborech dat a 2 navazujících modelech.
Ukazujeme, že rozmanitost nejvíce zvyšují tabuizovaná slova, ale výkon následného
modelu je nejvyšší s nápovědami.

Rok
2024
Strany
13148–13171
Sborník
Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)
Konference
The 62nd Annual Meeting of the Association for Computational Linguistics, Bangkok, TH
ISBN
979-8-8917-6094-3
Vydavatel
Association for Computational Linguistics
Místo
Bangkok
DOI
BibTeX
@inproceedings{BUT193293,
  author="ČEGIŇ, J. and PECHER, B. and ŠIMKO, J. and SRBA, I. and BIELIKOVÁ, M.",
  title="Effects of diversity incentives on sample diversity and downstream model performance in LLM-based text augmentation",
  booktitle="Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
  year="2024",
  pages="13148--13171",
  publisher="Association for Computational Linguistics",
  address="Bangkok",
  doi="10.18653/v1/2024.acl-long.710",
  isbn="979-8-8917-6094-3",
  url="https://aclanthology.org/2024.acl-long.710/"
}
Nahoru