Detail publikace
Automatic Document Structure Detection for Data Integration
BURGET, R. Automatic Document Structure Detection for Data Integration. In Business Information Systems. LNCS 4439. Poznan: Springer Verlag, 2007. p. 391-397. ISBN: 978-3-540-72034-8.
Název česky
Automatická detekce struktury dokumentu pro integraci dat
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Klíčová slova
semistrikturovaná data, analýza dokumentu, vizuální segmentace, logická struktura
Abstrakt
K uložení velkého množství informací se v současnosti stále využívá volně strukturovaných dokumentů v několika běžně užívaných formátech. Protože tyto dokumenty postrádají přesný popis uložených dat, pro jejich integraci do existujících informačních systémů je třeba vyvinout pokročilé techniky předzpracování. Čtenáři dokumentu je struktura sdělována převážně vizuálními prostředky. Z toho důvodu navrhujeme techniku pro detekci logické struktury dokumentu na základě vizuálních vlastností dokumentu jako rozvržení stránky a vlastnosti textu. Tato technika je v současné době testována a jsou k dispozici předběžné výsledky.
Rok
2007
Strany
391–397
Sborník
Business Information Systems
Řada
LNCS 4439
ISBN
978-3-540-72034-8
Vydavatel
Springer Verlag
Místo
Poznan
BibTeX
@inproceedings{BUT30569,
author="Radek {Burget}",
title="Automatic Document Structure Detection for Data Integration",
booktitle="Business Information Systems",
year="2007",
series="LNCS 4439",
pages="391--397",
publisher="Springer Verlag",
address="Poznan",
isbn="978-3-540-72034-8"
}