Téma disertační práce
Spolupráca človeka a umelej inteligencie na tvorbe dátových vzoriek
Ak. rok 2024/2025
Školitel: Šimko Jakub, doc. Ing., PhD.
Ústav: Ústav počítačové grafiky a multimédií
Programy:
Informační technologie (DIT) - kombinované studium
Information Technology (DIT-EN) - kombinované studium
Modely vytvárané strojovým učením môžu byť len tak dobré, aké dobré sú dáta, ktoré použijeme na ich trénovanie. Aj preto sa výskumníci a inžinieri snažia získavať čo najlepšie trénovacie dáta. Nie je pritom zriedkavé vynakladať značné ľudské úsilie (pri čistení či anotovaní) s cieľom dosiahnuť potrebnú všeobecnú kvalitu. Niekedy je však ťažké, prípadne nemožné dostatočne pripraviť vzorku dát.
V takýchto prípadoch môžu pomôcť riešenia založené na princípe “človek v procese” (angl. human in the loop), ktorý využíva ľudské úsilie na vylepšovanie strojovo naučených modelov prostredníctvom ľudských zásahov priamo počas trénovania a/alebo počas nasadenia modelov (napr. spätná väzba pri automatickom preklade). Tieto riešenia sú špeciálne užitočné pri cielených zlepšeniach trénovacích dát prostredníctvom identifikácie a riešenia sporných prípadov.
Prístupy s človekom procese zahŕňajú pestrú paletu techník z oblastí ako aktívne a interaktívne učenie, ľudské počítanie či čerpanie z davu (spolu s motivačnými schémami ako gamifikácia a hry s účelom). S nástupom veľkých jazykových modelov sa tiež otvárajú možnosti využiť tieto techniky pri generovaní veľkých syntetických trénovacích sád s relatívne malým ľudským úsilím.
Aplikačné domény sú predovšetkým tie s veľkou mierou heterogenity a nestálosti. Takéto domény zahŕňajú napríklad aj detekciu falošných informácií, šírenie informácií online (vrátane šírenia naratívov a mémov), auditovanie algoritmov sociálnych médií a ich tendencií šíriť dezinformácie, podpora manuálneho/automatického overovania informácií (fact-checking) a ďalšie.
Súvisiace publikácie:
- Cegin, J., Simko, J. and Brusilovsky, P., 2023. ChatGPT to Replace Crowdsourcing of Paraphrases for Intent Classification: Higher Diversity and Comparable Model Robustness. Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing https://arxiv.org/pdf/2305.12947.pdf
- J. Šimko and M. Bieliková. Semantic Acquisition Games: Harnessing Manpower for Creating Semantics. 1st Edition. Springer Int. Publ. Switzerland. 150 p. https://link.springer.com/book/10.1007/978-3-319-06115-3
Výskum bude doktorand vykonávať v rámci Kempelenovho inštitútu inteligentných technológií (KInIT, https://kinit.sk) v Bratislave v spolupráci s priemyselnými partnermi alebo výskumníkmi zo svetovo uznávaných výskumných skupín. Predpokladá sa kombinovaná (externá) forma štúdia a pracovný pomer na plný úväzok v KInIT.