Detail publikace
Multi-aspect Document Content Analysis using Ontological Modelling
Burget Radek, doc. Ing., Ph.D. (UIFS)
document modeling, information extraction, page segmentation, content classification, ontology, RDF
Existující metody extrakce informace z webových dokumentů jsou obvykle založeny na analýze jednoho aspektu dokumentu, jako například jeho kódu, textových, nebo vizuálních vlastností. Vzhledem ke značné variabilitě dostupných dokumentů je však vhodné kombinovat více typů analýzy, aby byly využity všechny dostupné znalosti pro identifikaci konkrétní informace v dokumentu. V tomto příspěvku navrhujeme model dokumentu založený na ontologiích, který umožňuje integrovat výsledky analýzy různých aspektů dokumentu. Navrhujeme obecnou architekturu systému pro extrakci informace založeného na tomto modelu a demonstrujeme jeho použitelnost na praktickém případě.
@inproceedings{BUT111652,
author="Martin {Milička} and Radek {Burget}",
title="Multi-aspect Document Content Analysis using Ontological Modelling",
booktitle="Proceedings of 9th Workshop on Intelligent and Knowledge Oriented Technologies (WIKT 2014)",
year="2014",
pages="9--12",
publisher="Vydavateľstvo STU",
address="Smolenice",
isbn="978-80-227-4267-2",
url="https://www.fit.vut.cz/research/publication/10724/"
}