Detail publikace

Visual HTML Document Modeling for Information Extraction

BURGET, R. Visual HTML Document Modeling for Information Extraction. RAWS 2005. Ostrava: Faculty of Electrical Engineering and Computer Science, VSB-TU Ostrava, 2005. p. 17-24. ISBN: 80-248-0864-1.

Název česky

Visuální modelování HTML dokumentů pro extrakci informace

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Burget Radek, doc. Ing., Ph.D. (UIFS)

Klíčová slova

HTML, Information Extraction, Document Modeling, Logical Document Structure,
Visual Information

Abstrakt

Současné metody pro extrakci informace z HTML dokumentů jsou založeny převážně na
tzv. wrapperech, které zpracovávají HTML kód a identifikují data na základě
vlastností okolních HTML značek a textu. Slabým místem tohoto přístupu je příliš
úzká vazba na HTML kód. Povaha HTML umožňuje dosáhnout výsledného vzhledu
dokumentu mnoha způsoby, které mohou být libovolně kombinovány, což způsobuje, že
wrappery jsou omezeny na úzkou množinu dokumentů a krátký časový interval. Na
druhou stranu však existují některá obecně uznávaná pravidla pro vizuální
prezentaci dat v dokumentech. Prezentovaný přístup je založen na modelování
vizuální informace v dokumentech za účelem identifikace dat. Definujeme formální
modely vizuální informace a navrhujeme metodu pro extrakci informace založenou na
přibližném porovnávání stromů.

Rok

2005

Strany

17–24

Sborník

RAWS 2005

ISBN

80-248-0864-1

Vydavatel

Faculty of Electrical Engineering and Computer Science, VSB-TU Ostrava

Místo

Ostrava

BibTeX

@inproceedings{BUT18057,
  author="Radek {Burget}",
  title="Visual HTML Document Modeling for Information Extraction",
  booktitle="RAWS 2005",
  year="2005",
  pages="17--24",
  publisher="Faculty of Electrical Engineering and Computer Science, VSB-TU Ostrava",
  address="Ostrava",
  isbn="80-248-0864-1"
}