Téma disertační práce
Extrakce informací z WWW
Ak. rok 2024/2025
Školitel: Burget Radek, doc. Ing., Ph.D.
Ústav: Ústav informačních systémů
Programy:
Informační technologie (DIT) - prezenční studium
Informační technologie (DIT) - kombinované studium
Information Technology (DIT-EN) - prezenční studium
Information Technology (DIT-EN) - kombinované studium
Problematika identifikace a extrakce konkrétních informací z dokumentů na WWW je již delší dobu předmětem intenzivního výzkumu. Mezi základní překážky, které je třeba překonat, patří nedostatečná strukturovanost HTML dokumentů a absence metainformací (anotací) využitelných pro rozpoznání významu jednotlivých částí obsahu. Tyto chybějící informace jsou proto nahrazovány analýzou různých aspektů webových dokumentů, zejména následujících:
- HTML kód dokumentu (DOM)
- Text dokumentu (hledání klíčových slov, statistická analýza textu, metody zpracování přirozeného jazyka)
- Vizuální organizaci (rozložení obsahu na stránce, vizuální vlastnosti)
Pro úspěšnou extrakci konkrétní informace z dokumentů je rovněž nezbytná doménová znalost zahrnující očekávanou strukturu extrahované informace (vztahy mezi jednotlivými extrahovanými položkami) a způsob zápisu jednotlivých položek. Tato znalost umožňuje přesnější rozpoznání jednotlivých částí informace v textu dokumentu.
Současné přístupy k extrakci informací z webových dokumentů se soustřeďují zejména na modelování a analýzu dokumentů samotných; modelování extrahované informace za účelem jejího přesnějšího rozpoznání nebylo dosud podrobněji zkoumáno v tomto kontextu. Předpokládaným cílem disertační práce jsou proto následující:
- Studium existujících doménových modelů jako např. UML diagramy tříd, E-R diagramy nebo ontologie.
- Rozšíření těchto modelů o konkrétní metody rozpoznání konkrétních údajů v dokumentech (např. regulární výrazy, pokročilá klasifikace textu).
- Návrh metod extrakce informací založených na srovnání struktury informace prezentované v dokumentu a očekávané struktury cílových informací.
Nedílnou součástí je rovněž experimentální implementace navržených metod s využitím existujících nástrojů a experimentální ověření na reálných dokumentech dostupných na WWW.