Detail publikace

Extracting Visually Presented Element Relationships from Web Documents

BURGET, R.; SMRŽ, P. Extracting Visually Presented Element Relationships from Web Documents. International Journal of Cognitive Informatics and Natural Intelligence, 2013, vol. 2013, no. 2, p. 13-29. ISSN: 1557-3958.
Název česky
Extrakce vizuálně prezentovaných vztahů z webových dokumentů
Typ
článek v časopise
Jazyk
anglicky
Autoři
Klíčová slova

logical document structure; page segmentation; document analysis; web documents

Abstrakt

Mnoho dokumentů na WWW prezentuje strukturovanou informaci, která se skládá s většího množství údajů, mezi kterými existují určité vztahy. I když často není obtížné identifikovat hodnoty jednotlivých údajů v textu dokumentu, vztahy mezi nimi často nejsou explicitně popsány v obsahu dokumentu. Jsou vyjádřeny pomocí vizuální prezentace obsahu interpretované čtenářem. V tomto článku popisujeme obecný formální model logických vztahů v dokumentu založený na interpretaci vzorů vizuální prezentace dat v dokumentu. Tento model popisuje vizuálně vyjádřené vztahy mezi jednotlivými částmi obsahu nezávisle na formátu dokumentu a konkrétním způsobu prezentace. Proto může být použit v mnoha aplikacích vyhledávání a extrakce informací. Formálně definujeme navržený model, představujeme metodu extrakce vztahů mezi částmi obsahu na základě analýzy vizuální prezentace a diskutujeme očekávané aplikace. Dále představujeme nový dataset skládající se z programů konferencí a dalších vědeckých událostí. Tento dataset je použit pro experimentální vyhodnocení výsledků implementované metody.

Rok
2013
Strany
13–29
Časopis
International Journal of Cognitive Informatics and Natural Intelligence, roč. 2013, č. 2, ISSN 1557-3958
DOI
EID Scopus
BibTeX
@article{BUT105971,
  author="Radek {Burget} and Pavel {Smrž}",
  title="Extracting Visually Presented Element Relationships from Web Documents",
  journal="International Journal of Cognitive Informatics and Natural Intelligence",
  year="2013",
  volume="2013",
  number="2",
  pages="13--29",
  doi="10.4018/ijcini.2013040102",
  issn="1557-3958",
  url="https://www.fit.vut.cz/research/publication/10468/"
}
Nahoru