Detail publikace

HTML Document Analysis for Information Extraction

BURGET, R. HTML Document Analysis for Information Extraction. Proceedings of 8th EEICT conference. Brno: Faculty of Information Technology BUT, 2002. p. 426-430. ISBN: 80-214-2116-9.
Název česky
Analýza HTML dokumentů pro extrakci informace
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Klíčová slova

HTML Analysis, Information Extraction

Abstrakt

Současný World Wide Web obsahuje obrovské množství informací obsažených v dokumentech HTML. Jazyk HTML ovšem popisuje především vzhled dokumentů a neobsahuje prostředky pro popis struktury obsažených dat. V tomto příspěvku navrhujeme model webového místa, který popisuje logickou strukturu obsahu. Dále navrhujeme metody pro vytvoření tohoto modelu na základě analýzy vzhledu a struktury HTML dokumentů.

Rok
2002
Strany
426–430
Sborník
Proceedings of 8th EEICT conference
ISBN
80-214-2116-9
Vydavatel
Faculty of Information Technology BUT
Místo
Brno
BibTeX
@inproceedings{BUT10014,
  author="Radek {Burget}",
  title="HTML Document Analysis for Information Extraction",
  booktitle="Proceedings of 8th EEICT conference",
  year="2002",
  pages="426--430",
  publisher="Faculty of Information Technology BUT",
  address="Brno",
  isbn="80-214-2116-9"
}
Nahoru