Téma disertační práce
Pokročilé extrakce a vyhodnocování veřejných dat na webu
Ak. rok 2024/2025
Školitel: Burget Radek, doc. Ing., Ph.D.
Školitel specialista: Hynek Jiří, Ing., Ph.D.
Ústav: Ústav informačních systémů
Programy:
Informační technologie (DIT) - prezenční studium
Informační technologie (DIT) - kombinované studium
Digitalizace veřejných institucí (např. logických samospráv nebo úřadů) přinesla zásadní změny v prezentaci informací, které jsou nyní stále častěji poskytovány v elektronické podobě (příkladem je portál data.brno.cz). Tento trend reflektuje snahu institucí zvýšit efektivitu, transparentnost a dostupnost informací pro občany. Elektronická prezentace umožňuje veřejným institucím poskytovat informace online prostřednictvím webových stránek, mobilních aplikací nebo elektronických bulletinů. Díky tomu mají občané okamžitý přístup k důležitým dokumentům, zprávám a oznámením. Zároveň umožňuje interaktivní prezentace dat a informací, což podporuje angažovanost veřejnosti a umožňuje občanům účinněji se zapojovat do veřejného života. Digitalizace tak představuje klíčový prvek modernizace veřejné správy a posiluje otevřenost a dostupnost informací ve prospěch občanů a dalších zúčastněných stran.
Jedním z hlavních problémů prezentace takových dat je nejednotnost formátů a struktury dat na různých webových stránkách různých samospráv. Každá samospráva může používat odlišné platformy a informace mohou být prezentovány různými způsoby, což značně komplikuje automatizovaný proces extrakce. Dalším aspektem je proměnlivost obsahu na webových stránkách samospráv, která může být překážkou pro konzistentní a spolehlivou extrakci dat. Často se stává, že informace, které jsou pro veřejnost relevantní, jsou umístěny na různých částech webových stránek, a tyto lokální změny mohou vyžadovat pružné a dynamické nástroje pro extrakci.
Za účelem výše zmíněných problémů vznikají iniciativy standardizace otevřených dat ve veřejné správě. Příkladem je Portál otevřených dat ČR (data.gov.cz, opendata.gov.cz), repositář Otevřená data ČR @ MVČR (github.com/opendata-mvcr) nebo portál otevřených dat města Brna (data.brno.cz).
Cílem této disertační práce je aplikovat přístupy strojového učení na klasifikaci a vyhodnocování otevřených dat v ČR a ve světě. Zejména se bude jednat o:
- nové přístupy analýzy HTML kódu dokumentu (DOM)
- aplikace strojového učení pro zpracování text dokumentů (hledání klíčových slov, statistická analýza textu, metody zpracování přirozeného jazyka)
- nové metody pro vizuální organizaci (rozložení obsahu na stránce, vizuální vlastnosti)
- algoritmy pro transformaci dat do standardizovaných modelů, případně návrh nových modelů