Detail publikace

Extracting Visually Presented Element Relationships from Web Documents

BURGET, R.; SMRŽ, P. Extracting Visually Presented Element Relationships from Web Documents. International Journal of Cognitive Informatics and Natural Intelligence, 2013, vol. 2013, no. 2, p. 13-29. ISSN: 1557-3958.

Název česky

Extrakce vizuálně prezentovaných vztahů z webových dokumentů

Typ

článek v časopise

Jazyk

anglicky

Autoři

Burget Radek, doc. Ing., Ph.D. (UIFS)
Smrž Pavel, doc. RNDr., Ph.D. (UPGM)

Klíčová slova

logical document structure; page segmentation; document analysis; web documents

Abstrakt

Mnoho dokumentů na WWW prezentuje strukturovanou informaci, která se skládá s většího množství údajů, mezi kterými existují určité vztahy. I když často není obtížné identifikovat hodnoty jednotlivých údajů v textu dokumentu, vztahy mezi nimi často nejsou explicitně popsány v obsahu dokumentu. Jsou vyjádřeny pomocí vizuální prezentace obsahu interpretované čtenářem. V tomto článku popisujeme obecný formální model logických vztahů v dokumentu založený na interpretaci vzorů vizuální prezentace dat v dokumentu. Tento model popisuje vizuálně vyjádřené vztahy mezi jednotlivými částmi obsahu nezávisle na formátu dokumentu a konkrétním způsobu prezentace. Proto může být použit v mnoha aplikacích vyhledávání a extrakce informací. Formálně definujeme navržený model, představujeme metodu extrakce vztahů mezi částmi obsahu na základě analýzy vizuální prezentace a diskutujeme očekávané aplikace. Dále představujeme nový dataset skládající se z programů konferencí a dalších vědeckých událostí. Tento dataset je použit pro experimentální vyhodnocení výsledků implementované metody.

Rok

2013

Strany

13–29

Časopis

International Journal of Cognitive Informatics and Natural Intelligence, roč. 2013, č. 2, ISSN 1557-3958

DOI

10.4018/ijcini.2013040102

EID Scopus

2-s2.0-84903120607

BibTeX

@article{BUT105971,
  author="Radek {Burget} and Pavel {Smrž}",
  title="Extracting Visually Presented Element Relationships from Web Documents",
  journal="International Journal of Cognitive Informatics and Natural Intelligence",
  year="2013",
  volume="2013",
  number="2",
  pages="13--29",
  doi="10.4018/ijcini.2013040102",
  issn="1557-3958",
  url="https://www.fit.vut.cz/research/publication/10468/"
}