Téma disertační práce

Zarovnání předtrénovaných modelů prostřednictvím interpretovatelného latentního prostoru

Ak. rok 2024/2025

Školitel: Černocký Jan, prof. Dr. Ing.

Školitel specialista: Kesiraju Santosh, Ph.D.

Ústav: Ústav počítačové grafiky a multimédií

Programy:
Informační technologie (DIT) - prezenční studium
Information Technology (DIT-EN) - prezenční studium

Použití velkých předtrénovaných modelů se stalo všudypřítomným v několika oblastech umělé inteligence (AI). Nedávný vývoj a schopnosti velkých jazykových modelů jsou ukázkovým příkladem. Podobné trendy lze pozorovat v oblastech, jako jsou technologie řeči, počítačové vidění a napříč obory souvisejícími s medicínou a zdravotnictvím. V oblasti zpracování řeči a jazyka jsou současné nejmodernější modely trénovány nezávisle na sobě a většina z nich je při svém vstupu unimodální, přitom řada aplikací, jako je překlad mluvené řeči, dialogové systémy orientované a atypické hodnocení řeči, buď vyžaduje pečlivou kombinaci dvou nebo více modelů, nebo z ní těží. Naivní přístup kaskádového spojení má za následek šíření chyb a jejich skládání, zatímco společné trénování způsobuje katastrofální zapomínání, kde se výhody předtrénování zmenšují. Navíc k těmto omezením jsou “black box” modely obtížně interpretovatelná; navíc šíří škodlivé předsudky získané z masivních trénovacích dat procházených po webu. K překonání těchto omezení současného stavu toto PhD téma navrhuje vyvinout teoreticky motivované metody pro řazení libovolných předem trénovaných modelů prostřednictvím interpretovatelného latentního prostoru. Zarovnání umožní spojovat modely bez nutnosti jejich dolaďování. Interpretovatelný latentní prostor usnadní studium a identifikaci lingvistických, paralingvistických a etických atributů, které jsou v předtrénovaných modelech zakódovány. To také umožní vysvětlit výstupy modelů v aplikacích zaměřených na člověka souvisejících s medicínou, např. při hodnocení atypické řeči a jazyka. Sdílený latentní prostor umožní také využívat efektivní metody augmentace dat a zmírňování biasu, které zvýší robustnost řečových a jazykových aplikací.

Nahoru