Detail publikace

Effects of diversity incentives on sample diversity and downstream model performance in LLM-based text augmentation

ČEGIŇ, J.; PECHER, B.; ŠIMKO, J.; SRBA, I.; BIELIKOVÁ, M. Effects of diversity incentives on sample diversity and downstream model performance in LLM-based text augmentation. Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Bangkok: Association for Computational Linguistics, 2024. p. 13148-13171. ISBN: 979-8-8917-6094-3.

Název česky

Účinky podnětu rozmanitosti na rozmanitost vzorků a výkon modelu při augmentaci textu na bázi LLM

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Čegiň Ján, Ing. (UPGM)
Pecher Branislav, Ing. (UPGM)
Šimko Jakub, doc. Ing., PhD. (UPGM)
SRBA, I.
Bieliková Mária, prof. Ing., Ph.D. (UPGM)
a další

URL

https://aclanthology.org/2024.acl-long.710/

Klíčová slova

velké jazykové modely, augmentace dat, lexikální diverzita, augmentace textu,
crowdsourcing

Abstrakt

Nejnovější generativní velké jazykové modely (LLM) našly své uplatnění v úlohách
rozšiřování dat, kde jsou malé počty textových vzorků parafrázovány LLM a poté
použity k doladění navazujících modelů. Je však zapotřebí dalšího výzkumu, aby
bylo možné posoudit, jak různé výzvy, strategie výběru výchozích dat, metody
filtrování nebo nastavení modelu ovlivňují kvalitu parafrázovaných dat (a
následných modelů). V této studii zkoumáme tři metody pro rozmanitost textu dobře
zavedené v crowdsourcingu: tabuizovaná slova, náznaky dřívějších odlehlých řešení
a řetězení předchozích odlehlých řešení. Pomocí těchto podnětových metod jako
součásti instrukcí LLM rozšiřujících textové datové sady měříme jejich účinky na
lexikální rozmanitost generovaných textů a na výkonu následného modelu.
Porovnáváme účinky na 5 různých LLM, 6 souborech dat a 2 navazujících modelech.
Ukazujeme, že rozmanitost nejvíce zvyšují tabuizovaná slova, ale výkon následného
modelu je nejvyšší s nápovědami.

Rok

2024

Strany

13148–13171

Sborník

Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)

Konference

The 62nd Annual Meeting of the Association for Computational Linguistics, Bangkok, TH

ISBN

979-8-8917-6094-3

Vydavatel

Association for Computational Linguistics

Místo

Bangkok

DOI

10.18653/v1/2024.acl-long.710

BibTeX

@inproceedings{BUT193293,
  author="ČEGIŇ, J. and PECHER, B. and ŠIMKO, J. and SRBA, I. and BIELIKOVÁ, M.",
  title="Effects of diversity incentives on sample diversity and downstream model performance in LLM-based text augmentation",
  booktitle="Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
  year="2024",
  pages="13148--13171",
  publisher="Association for Computational Linguistics",
  address="Bangkok",
  doi="10.18653/v1/2024.acl-long.710",
  isbn="979-8-8917-6094-3",
  url="https://aclanthology.org/2024.acl-long.710/"
}