Detail publikace
Extracting Visually Presented Element Relationships from Web Documents
logical document structure; page segmentation; document analysis; web documents
Mnoho dokumentů na WWW prezentuje strukturovanou informaci, která se skládá s většího množství údajů, mezi kterými existují určité vztahy. I když často není obtížné identifikovat hodnoty jednotlivých údajů v textu dokumentu, vztahy mezi nimi často nejsou explicitně popsány v obsahu dokumentu. Jsou vyjádřeny pomocí vizuální prezentace obsahu interpretované čtenářem. V tomto článku popisujeme obecný formální model logických vztahů v dokumentu založený na interpretaci vzorů vizuální prezentace dat v dokumentu. Tento model popisuje vizuálně vyjádřené vztahy mezi jednotlivými částmi obsahu nezávisle na formátu dokumentu a konkrétním způsobu prezentace. Proto může být použit v mnoha aplikacích vyhledávání a extrakce informací. Formálně definujeme navržený model, představujeme metodu extrakce vztahů mezi částmi obsahu na základě analýzy vizuální prezentace a diskutujeme očekávané aplikace. Dále představujeme nový dataset skládající se z programů konferencí a dalších vědeckých událostí. Tento dataset je použit pro experimentální vyhodnocení výsledků implementované metody.
@article{BUT105971,
author="Radek {Burget} and Pavel {Smrž}",
title="Extracting Visually Presented Element Relationships from Web Documents",
journal="International Journal of Cognitive Informatics and Natural Intelligence",
year="2013",
volume="2013",
number="2",
pages="13--29",
doi="10.4018/ijcini.2013040102",
issn="1557-3958",
url="https://www.fit.vut.cz/research/publication/10468/"
}