Detail publikace

Layout Based Information Extraction from HTML Documents

BURGET, R. Layout Based Information Extraction from HTML Documents. 9th International Conference on Document Analysis and Recognition ICDAR 2007. Curitiba: IEEE Computer Society, 2007. p. 624-629. ISBN: 0-7695-2822-8.

Název česky

Extrakce informace z HTML dokumetnů založená na rozložení stránky

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Burget Radek, doc. Ing., Ph.D. (UIFS)

Klíčová slova

page segmentation, layout analysis, information extraction

Abstrakt

Navrhujeme metodu extrakce informace z HTML dokumentů založenou na modelování
vizuální informace v dokumentu. Metoda používá segmentační algoritmus pro detekci
rozložení stránky a následný extrakční proces je založen na analýze vzájemných
pozic detekovaných bloků a jejich vizuálních vlastnostech. Tento přístup je
robustnější, než tradiční metody založené na DOM a otevírá nové možnosti
specifikace extrakční úlohy.

Rok

2007

Strany

624–629

Sborník

9th International Conference on Document Analysis and Recognition ICDAR 2007

Konference

9th International Conference on Document Analysis and Recognition, Curitiba, BR

ISBN

0-7695-2822-8

Vydavatel

IEEE Computer Society

Místo

Curitiba

BibTeX

@inproceedings{BUT28821,
  author="Radek {Burget}",
  title="Layout Based Information Extraction from HTML Documents",
  booktitle="9th International Conference on Document Analysis and Recognition ICDAR 2007",
  year="2007",
  pages="624--629",
  publisher="IEEE Computer Society",
  address="Curitiba",
  isbn="0-7695-2822-8"
}