Detail publikace
Web Page Element Classification Based on Visual Features
page segmentation, preprocessing, classification, visual features, visual blocks
Typickým problémem při aplikaci tradičních metod získávání znalostí na dokumenty v síti World Wide Web je skutečnost, že většina těchto dokumentů obsahuje kromě hlavního obsahu i množství dodatečných informací různých druhů. Tyto dodatečné informace jako například navigace, reklama nebo kontaktní informace negativně ovlivňují výsledky metod získávání znalostí jako je například klasifikace dokumentu. V tomto příspěvku navrhujeme metodu detekce zajímavých oblastí webové stránky. Tato metoda je inspirovaná předpokládaných chováním běžného čtenáře. Nejdříve jsou ve stránce detekovány základní vizuální bloky a jejich význam je následně odhadován na základě jejich vzhledu. Popisujeme algoritmus segmentace stránek použitý pro detekci těchto bloků, navrhujeme způsob jejich klasifikace na základě vizuálních vlastností a představujeme výsledky experimentálního testování metody na reálných datech.
@inproceedings{BUT33776,
author="Radek {Burget} and Ivana {Burgetová}",
title="Web Page Element Classification Based on Visual Features",
booktitle="1st Asian Conference on Intelligent Information and Database Systems ACIIDS 2009",
year="2009",
pages="67--72",
publisher="IEEE Computer Society",
address="Dong Hoi",
isbn="978-0-7695-3580-7"
}