Publication Details
Extrakce informace z WWW na základě znalosti struktury dat
BURGET, R. Extrakce informace z WWW na základě znalosti struktury dat. Sborník příspěvků 2. ročníku konference Znalosti 2003. Ostrava: Fakulta elektrotechniky a informatiky, VŠB-TU Ostrava, 2003. s. 271-280. ISBN: 80-248-0229-5.
English title
Information Extraction from WWW based on the data structure knowledge
Type
conference paper
Language
Czech
Authors
Keywords
Information Extraction, HTML, XML
Abstract
This paper deals with the matter of modelling the logical structure of a Web site and using such model for information extraction. It proposes an algorithm for creating a site model based on the HTML code analysis and a XML/XSL based system for information extraction from this model. Furthermore, the possibility of the usage of tree matching algorithms for automating the extraction process is discussed.
Published
2003
Pages
271–280
Proceedings
Sborník příspěvků 2. ročníku konference Znalosti 2003
ISBN
80-248-0229-5
Publisher
Fakulta elektrotechniky a informatiky, VŠB-TU Ostrava
Place
Ostrava
BibTeX
@inproceedings{BUT13790,
author="Radek {Burget}",
title="Extrakce informace z WWW na základě znalosti struktury dat",
booktitle="Sborník příspěvků 2. ročníku konference Znalosti 2003",
year="2003",
pages="271--280",
publisher="Fakulta elektrotechniky a informatiky, VŠB-TU Ostrava",
address="Ostrava",
isbn="80-248-0229-5"
}