Detail publikace

Visual Area Classification for Article Identification in Web Documents

BURGET, R. Visual Area Classification for Article Identification in Web Documents. 21st International Workshop on Databases and Expert Systems Applications. Bilbao: IEEE Computer Society, 2010. p. 171-175. ISBN: 978-0-7695-4174-7.
Název česky
Vizuální klasifikace pro identifikaci článků ve webových dokumentech
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Klíčová slova

article extraction, document cleaning, page segmentation, visual analysis

Abstrakt

Články zveřejněné na WWW jsou obvykle publikovány v rámci složitějších HTML dokumentů, které obsahují mnoho typů informací, které nejsou explicitně označeny. V tomto příspěvku navrhujeme přístup k analýze vizuální informace za účelem nalezení článků ve složitých HTML dokumentech. Používáme přístup založený na klasifikace pro identifikaci důležitých částí článku na stránce a navrhujeme algoritmus pro detekci hranic článku na stránce. Dále uvádíme výsledky experimentálního vyhodnocení navrženého postupu.

Rok
2010
Strany
171–175
Sborník
21st International Workshop on Databases and Expert Systems Applications
ISBN
978-0-7695-4174-7
Vydavatel
IEEE Computer Society
Místo
Bilbao
BibTeX
@inproceedings{BUT35628,
  author="Radek {Burget}",
  title="Visual Area Classification for Article Identification in Web Documents",
  booktitle="21st International Workshop on Databases and Expert Systems Applications",
  year="2010",
  pages="171--175",
  publisher="IEEE Computer Society",
  address="Bilbao",
  isbn="978-0-7695-4174-7"
}
Nahoru