Detail publikace

Multi-aspect Document Content Analysis using Ontological Modelling

MILIČKA, M.; BURGET, R. Multi-aspect Document Content Analysis using Ontological Modelling. Proceedings of 9th Workshop on Intelligent and Knowledge Oriented Technologies (WIKT 2014). Smolenice: Vydavateľstvo STU, 2014. p. 9-12. ISBN: 978-80-227-4267-2.

Název česky

Analýza více aspektů obsahu dokumentu s využitím ontologií

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Milička Martin, Ing.
Burget Radek, doc. Ing., Ph.D. (UIFS)

Klíčová slova

document modeling, information extraction, page segmentation, content classification, ontology, RDF

Abstrakt

Existující metody extrakce informace z webových dokumentů jsou obvykle založeny na analýze jednoho aspektu dokumentu, jako například jeho kódu, textových, nebo vizuálních vlastností. Vzhledem ke značné variabilitě dostupných dokumentů je však vhodné kombinovat více typů analýzy, aby byly využity všechny dostupné znalosti pro identifikaci konkrétní informace v dokumentu. V tomto příspěvku navrhujeme model dokumentu založený na ontologiích, který umožňuje integrovat výsledky analýzy různých aspektů dokumentu. Navrhujeme obecnou architekturu systému pro extrakci informace založeného na tomto modelu a demonstrujeme jeho použitelnost na praktickém případě.

Rok

2014

Strany

9–12

Sborník

Proceedings of 9th Workshop on Intelligent and Knowledge Oriented Technologies (WIKT 2014)

Konference

9th Workshop on Intelligent and Knowledge oriented Technologies, Smolenice, SK

ISBN

978-80-227-4267-2

Vydavatel

Vydavateľstvo STU

Místo

Smolenice

BibTeX

@inproceedings{BUT111652,
  author="Martin {Milička} and Radek {Burget}",
  title="Multi-aspect Document Content Analysis using Ontological Modelling",
  booktitle="Proceedings of 9th Workshop on Intelligent and Knowledge Oriented Technologies (WIKT 2014)",
  year="2014",
  pages="9--12",
  publisher="Vydavateľstvo STU",
  address="Smolenice",
  isbn="978-80-227-4267-2",
  url="https://www.fit.vut.cz/research/publication/10724/"
}