Detail publikace

Information Extraction from Web Sources based on Multi-aspect Content Analysis

MILIČKA, M.; BURGET, R. Information Extraction from Web Sources based on Multi-aspect Content Analysis. In Semantic Web Evaluation Challenges, SemWebEval 2015 at ESWC 2015. Communications in Computer and Information Science. Communications in Computer and Information Science. Portorož: Springer International Publishing, 2015. p. 81-92. ISBN: 978-3-319-25517-0. ISSN: 1865-0929.

Název česky

Extrakce informací z webových zdrojů založená na více aspektové analýze obsahu

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Milička Martin, Ing.
Burget Radek, doc. Ing., Ph.D. (UIFS)

Klíčová slova

document modeling, information extraction, page segmentation, content classification, ontology, RDF

Abstrakt

Extrakce informací z webových stránek je často považována za obtížný úkol kvůli nepřesné struktuře a nedostatečným sémantickým informací ve zdrojovém HTML kódu. Webové stránky jsou primárně určeny ke zpracování lidmi, jejich autoři se tedy příliš nezabývají strukturou ani správností zápisu HTML kódu. Stránky CEUR Workshop Proceedings dobře ilustrují tuto problematiku. Můžeme tam najít spoustu různě nevalidních stránek až po ty, které odpovídají normám. V tomto příspěvku, který je součástí ESWC 2015 Semantic Publishing Challenge, je prezentovana extrakce informace založena na analýze rendrovaných stránek spíše než na zdrojovém kódu. Výsledné popisy dokumetů jsou prezentovány v RDF modelu, který umožňuje kombinovat výsledky různých analýz na stránkách jako je vizuální nebo textová klasifikace. Takový přístup umožňuje definovat pravidla extrakce konkrétních dat bez ohledu na zdrojový kód.

Rok

2015

Strany

81–92

Časopis

Communications in Computer and Information Science, roč. 2015, č. 548, ISSN 1865-0929

Sborník

Semantic Web Evaluation Challenges, SemWebEval 2015 at ESWC 2015

Řada

Communications in Computer and Information Science

ISBN

978-3-319-25517-0

Vydavatel

Springer International Publishing

Místo

Portorož

DOI

10.1007/978-3-319-25518-7_7

UT WoS

000369663000007

EID Scopus

2-s2.0-84951282940

BibTeX

@inproceedings{BUT119821,
  author="Martin {Milička} and Radek {Burget}",
  title="Information Extraction from Web Sources based on Multi-aspect Content Analysis",
  booktitle="Semantic Web Evaluation Challenges, SemWebEval 2015 at ESWC 2015",
  year="2015",
  series="Communications in Computer and Information Science",
  journal="Communications in Computer and Information Science",
  volume="2015",
  number="548",
  pages="81--92",
  publisher="Springer International Publishing",
  address="Portorož",
  doi="10.1007/978-3-319-25518-7\{_}7",
  isbn="978-3-319-25517-0",
  issn="1865-0929",
  url="https://www.fit.vut.cz/research/publication/10840/"
}