Téma disertační práce

Strojové učení pro identifikaci informací na webu

Ak. rok 2024/2025

Školitel: Burget Radek, doc. Ing., Ph.D.

Ústav: Ústav informačních systémů

Programy:
Informační technologie (DIT) - prezenční studium
Informační technologie (DIT) - kombinované studium
Information Technology (DIT-EN) - prezenční studium
Information Technology (DIT-EN) - kombinované studium

Přestože existují technologie, které umožňují publikovat data na WWW ve strojově čitelné podobě (jako např. JSON-LD, RDFa, apod.), velké množství strukturovaných dat je na webu stále publikováno ve formě prostého HTML/CSS kódu, který velmi omezuje možnosti jejich dalšího využití.

V poslední době nabývají na významu nové metody strojového učení (zejména deep learning metody), které vykazují zajímavé výsledky např. při rozpoznávání důležitých entit ve slabě strukturovaných nebo nestrukturovaných datech (např. v textu nebo obraze). Oblasti zpracování webových dokumentů však není z tohoto pohledu věnována velká pozornost. Existující práce se zabývají identifikací jednoduchých datových položek a pomíjí strukturovaná data a komplexnější scénáře použití.

Cílem tématu je proto analýza a vývoj modelů webového obsahu vhodných jako vstup pro strojové učení a současně i metod strojového učení vhodných pro rozpoznání strukturovaných dat ve webových dokumentech.

Nahoru