Detail publikace
Layout Based Information Extraction from HTML Documents
BURGET, R. Layout Based Information Extraction from HTML Documents. 9th International Conference on Document Analysis and Recognition ICDAR 2007. Curitiba: IEEE Computer Society, 2007. p. 624-629. ISBN: 0-7695-2822-8.
Název česky
Extrakce informace z HTML dokumetnů založená na rozložení stránky
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Klíčová slova
page segmentation, layout analysis, information extraction
Abstrakt
Navrhujeme metodu extrakce informace z HTML dokumentů založenou na modelování
vizuální informace v dokumentu. Metoda používá segmentační algoritmus pro detekci
rozložení stránky a následný extrakční proces je založen na analýze vzájemných
pozic detekovaných bloků a jejich vizuálních vlastnostech. Tento přístup je
robustnější, než tradiční metody založené na DOM a otevírá nové možnosti
specifikace extrakční úlohy.
Rok
2007
Strany
624–629
Sborník
9th International Conference on Document Analysis and Recognition ICDAR 2007
Konference
9th International Conference on Document Analysis and Recognition, Curitiba, BR
ISBN
0-7695-2822-8
Vydavatel
IEEE Computer Society
Místo
Curitiba
BibTeX
@inproceedings{BUT28821,
author="Radek {Burget}",
title="Layout Based Information Extraction from HTML Documents",
booktitle="9th International Conference on Document Analysis and Recognition ICDAR 2007",
year="2007",
pages="624--629",
publisher="IEEE Computer Society",
address="Curitiba",
isbn="0-7695-2822-8"
}