Detail publikace

Cluster-based Page Segmentation - a fast and precise method for web page pre-processing

ZELENÝ, J.; BURGET, R. Cluster-based Page Segmentation - a fast and precise method for web page pre-processing. In The Third International Conference on Web Intelligence, Mining and Semantics. Madrid: Association for Computing Machinery, 2013. p. 1-12. ISBN: 978-1-4503-1850-1.
Název česky
Cluster-based Page Segmentation - rychlá a přesná metoda pro předzpracování webových stránek
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Zelený Jan, Ing., Ph.D.
Burget Radek, doc. Ing., Ph.D. (UIFS)
Klíčová slova

VIPS, vision-based page segmentation, clustering, template,\\template detection

Abstrakt

Segmentace webových stránek může být jedním z prvních kroků při jejich zpracování. Ačkoliv v této oblasti již nějakou dobu probíhá výzkum, jednotlivé práce se zaměřují buď na kvalitu nebo výkonnost přístupu. Tato práce představuje postup, kterým lze dosáhnout vyšších výkonů vizuálně orientovaných algoritmů. Náš přístup je založen na konceptech moderního pojetí webu a velmi častém přístupu, kdy je více stránek zpracováváno v jedné dávce. Vezmeme-li v úvahu tento scénář, výrazné zrychlení může být získáno izomorfním mapováním DOM stromů jednotlivých stránek a následném využití již dříve existujících výsledků segmentace. V této práci představujeme kromě metody samotné také experimentální ověření a porovnání výsledků s algoritmem VIPS, který je v oblasti segmentace de facto průmyslovým standardem.

Rok
2013
Strany
1–12
Sborník
The Third International Conference on Web Intelligence, Mining and Semantics
ISBN
978-1-4503-1850-1
Vydavatel
Association for Computing Machinery
Místo
Madrid
DOI
EID Scopus
BibTeX
@inproceedings{BUT106483,
  author="Jan {Zelený} and Radek {Burget}",
  title="Cluster-based Page Segmentation - a fast and precise method for web page pre-processing",
  booktitle="The Third International Conference on Web Intelligence, Mining and Semantics",
  year="2013",
  pages="1--12",
  publisher="Association for Computing Machinery",
  address="Madrid",
  doi="10.1145/2479787.2479792",
  isbn="978-1-4503-1850-1",
  url="https://www.fit.vut.cz/research/publication/10252/"
}
Nahoru