Téma disertační práce
Zlepšovanie spracovania prirodzeného jazyka
Ak. rok 2024/2025
Školitel: Šimko Marián, doc. Ing., Ph.D.
Ústav: Ústav počítačové grafiky a multimédií
Programy:
Informační technologie (DIT) - kombinované studium
Information Technology (DIT-EN) - kombinované studium
Rozvoj veľkých jazykových modelov (large language models, LLM) v posledných mesiacoch ukazuje potenciál hlbokého učenia a umelých neurónových sietí pre mnoho úloh spracovania prirodzeného jazyka (natural language processing, NLP). Pokroky v ich automatizácii majú významný dopad na množstvo inovatívnych aplikácií ovplyvňujúcich každodenný život.
Aj keď sú veľké jazykové modely úspešne využívané pri riešení veľkého množstva úloh, stále zostávajú viaceré výskumné výzvy týkajúce sa jednotlivých úloh spracovania prirodzeného jazyka, aplikačných domén a samotných jazykov. K nim pribúdajú ďalšie výzvy vychádzajúce z podstaty veľkých jazykových modelov a netransparentnej povahy modelov založených na neurónových sieťach (tzv. black-box modely).
Je potrebný ďalší výskum a prieskum súvisiacich javov, špeciálnu pozornosť v poslednej dobe púta problém dôveryhodnosti modelov pre NLP (tzv. trustworthy NLP) alebo nové paradigmy učenia adresujúce problém nízkej dostupnosti zdrojov potrebných pre učenie (tzv. low-resource NLP).
Zaujímavé výskumné výzvy, na ktoré sa možno v rámci témy zamerať (príkady):
- Veľké jazykové modely a ich vlastnosti (napr. porozumenie halucinovania)
- Dôveryhodnosť NLP (napr. mitigácia biasov, vysvetliteľnosť modelov)
- Adaptovanie veľkých jazykových modelov na konkrétny kontext a úlohu (napr. prostredníctvom PEFT, RAG)
- Pokročilé techniky učenia (napr. učenie s prenosom, multilingválne učenie)
- Doménovo-špecifická extrakcia informácií a klasifikácia textu (napr. nové metódy analýzy sentimentu, zlepšovanie kvality konverzácie v konverzačných agentoch)
Súvisiace publikácie:
- Pikuliak, M., et al. SlovakBERT: Slovak Masked Language Model. In Findings of the Association for Computational Linguistics: EMNLP 2022, pages 7156–7168, ACL, 2022
http://dx.doi.org/10.18653/v1/2022.findings-emnlp.530 - Pikuliak, M., Šimko, M. Average Is Not Enough: Caveats of Multilingual Evaluation. In Proceedings of the The 2nd Workshop on Multi-lingual Representation Learning (MRL), pages 125–133, ACL, 2022
http://dx.doi.org/10.18653/v1/2022.mrl-1.13
Výskum bude doktorand(ka) vykonávať v rámci Kempelenovho inštitútu inteligentných technológií (KInIT, https://kinit.sk) v Bratislave v spolupráci s priemyselnými partnermi alebo výskumníkmi zo svetovo uznávaných výskumných skupín. Predpokladá sa kombinovaná (externá) forma štúdia a pracovný pomer na plný úväzok v KInIT.