Detail publikace
HTML Document Analysis for Information Extraction
BURGET, R. HTML Document Analysis for Information Extraction. Proceedings of 8th EEICT conference. Brno: Faculty of Information Technology BUT, 2002. p. 426-430. ISBN: 80-214-2116-9.
Název česky
Analýza HTML dokumentů pro extrakci informace
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Klíčová slova
HTML Analysis, Information Extraction
Abstrakt
Současný World Wide Web obsahuje obrovské množství informací obsažených v dokumentech HTML. Jazyk HTML ovšem popisuje především vzhled dokumentů a neobsahuje prostředky pro popis struktury obsažených dat. V tomto příspěvku navrhujeme model webového místa, který popisuje logickou strukturu obsahu. Dále navrhujeme metody pro vytvoření tohoto modelu na základě analýzy vzhledu a struktury HTML dokumentů.
Rok
2002
Strany
426–430
Sborník
Proceedings of 8th EEICT conference
ISBN
80-214-2116-9
Vydavatel
Faculty of Information Technology BUT
Místo
Brno
BibTeX
@inproceedings{BUT10014,
author="Radek {Burget}",
title="HTML Document Analysis for Information Extraction",
booktitle="Proceedings of 8th EEICT conference",
year="2002",
pages="426--430",
publisher="Faculty of Information Technology BUT",
address="Brno",
isbn="80-214-2116-9"
}