Detail výsledku

Vizuální segmentace elektronických dokumentů

BURGET, R. Vizuální segmentace elektronických dokumentů. Znalosti 2007. Ostrava: VŠB - Technická univerzita Ostrava, 2007. s. 155-166. ISBN: 978-80248-1279-3.
Název anglicky
Visual Document Segmentation
Typ
článek ve sborníku konference
Jazyk
čeština
Autoři
Abstrakt

Segmentace dokumentů se zabývá detekcí vizuálního členění obsahu dokumentů a jeho reprezentací. Znalost členění obsahu umožňuje zpřesnit výsledky existujících metod zpracování dokumentů, které dosud využívaly zejména textový obsah dokumentu, jako například metody indexace a vyhledávání dokumentů, klasifikace, extrakce informace a další. V současnosti existuje několik přístupů k segmentaci dokumentů, které jsou však často omezené na konkrétní typ dokumentu či konkrétní aplikaci. V tomto příspěvku navrhujeme novou metodu, která odstraňuje některé omezující vlastnosti existujících metod a dále se zabýváme možností využití navržené metody segmentace v oblasti extrakce dat z dokumentu.

Abstrakt anglicky

Document segmentation deals with the discovery of the visual layout of documents and its representation. This knowledge allows to improve the results of existing document processing methods that are usually based on processing the text content only, such as document indexing and retrieval, classification, information extraction, etc. Currently, there exist several approaches to the document segmentation. However, they are usually limited to a particular type of documents or a particular application. In this paper, we propose a new method that solves some limiting features of the existing methods and furthermore, we show how this method can be used in the information extraction area.

Klíčová slova

modelování dokumentů, segmentace stránek, extrakce informace, struktura dokumentu

Klíčová slova anglicky

document modelling, page segmentation, information extraction, document structure

Rok
2007
Strany
155–166
Sborník
Znalosti 2007
Konference
Znalosti 2007
ISBN
978-80248-1279-3
Vydavatel
VŠB - Technická univerzita Ostrava
Místo
Ostrava
BibTeX
@inproceedings{BUT28579,
  author="Radek {Burget}",
  title="Vizuální segmentace elektronických dokumentů",
  booktitle="Znalosti 2007",
  year="2007",
  pages="155--166",
  publisher="VŠB - Technická univerzita Ostrava",
  address="Ostrava",
  isbn="978-80248-1279-3"
}
Projekty
Výzkum informačních technologií z hlediska bezpečnosti, MŠMT, Institucionální prostředky SR ČR (např. VZ, VC), MSM0021630528, zahájení: 2007-01-01, ukončení: 2013-12-31, řešení
Výzkumné skupiny
Pracoviště
Nahoru