Téma disertační práce

Extrakce informací z WWW

Ak. rok 2024/2025

Školitel: Burget Radek, doc. Ing., Ph.D.

Ústav: Ústav informačních systémů

Programy:
Informační technologie (DIT) - prezenční studium
Informační technologie (DIT) - kombinované studium
Information Technology (DIT-EN) - prezenční studium
Information Technology (DIT-EN) - kombinované studium

Problematika identifikace a extrakce konkrétních informací z dokumentů na WWW je již delší dobu předmětem intenzivního výzkumu. Mezi základní překážky, které je třeba překonat, patří nedostatečná strukturovanost HTML dokumentů a absence metainformací (anotací) využitelných pro rozpoznání významu jednotlivých částí obsahu. Tyto chybějící informace jsou proto nahrazovány analýzou různých aspektů webových dokumentů, zejména následujících:

  • HTML kód dokumentu (DOM)
  • Text dokumentu (hledání klíčových slov, statistická analýza textu, metody zpracování přirozeného jazyka)
  • Vizuální organizaci (rozložení obsahu na stránce, vizuální vlastnosti)

Pro úspěšnou extrakci konkrétní informace z dokumentů je rovněž nezbytná doménová znalost zahrnující očekávanou strukturu extrahované informace (vztahy mezi jednotlivými extrahovanými položkami) a způsob zápisu jednotlivých položek. Tato znalost umožňuje přesnější rozpoznání jednotlivých částí informace v textu dokumentu.

Současné přístupy k extrakci informací z webových dokumentů se soustřeďují zejména na modelování a analýzu dokumentů samotných; modelování extrahované informace za účelem jejího přesnějšího rozpoznání nebylo dosud podrobněji zkoumáno v tomto kontextu. Předpokládaným cílem disertační práce jsou proto následující:

  • Studium existujících doménových modelů jako např. UML diagramy tříd, E-R diagramy nebo ontologie.
  • Rozšíření těchto modelů o konkrétní metody rozpoznání konkrétních údajů v dokumentech (např. regulární výrazy, pokročilá klasifikace textu).
  • Návrh metod extrakce informací založených na srovnání struktury informace prezentované v dokumentu a očekávané struktury cílových informací.

Nedílnou součástí je rovněž experimentální implementace navržených metod s využitím existujících nástrojů a experimentální ověření na reálných dokumentech dostupných na WWW.

Nahoru