Detail publikace

Information Extraction from Web Sources based on Multi-aspect Content Analysis

MILIČKA, M.; BURGET, R. Information Extraction from Web Sources based on Multi-aspect Content Analysis. In Semantic Web Evaluation Challenges, SemWebEval 2015 at ESWC 2015. Communications in Computer and Information Science. Communications in Computer and Information Science. Portorož: Springer International Publishing, 2015. p. 81-92. ISBN: 978-3-319-25517-0. ISSN: 1865-0929.
Název česky
Extrakce informací z webových zdrojů založená na více aspektové analýze obsahu
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
Milička Martin, Ing.
Burget Radek, doc. Ing., Ph.D. (UIFS)
Klíčová slova

document modeling, information extraction, page segmentation, content classification, ontology, RDF

Abstrakt

Extrakce informací z webových stránek je často považována za obtížný úkol kvůli nepřesné struktuře a nedostatečným sémantickým informací ve zdrojovém HTML kódu. Webové stránky jsou primárně určeny ke zpracování lidmi, jejich autoři se tedy příliš nezabývají strukturou ani správností zápisu HTML kódu. Stránky CEUR Workshop Proceedings dobře ilustrují tuto problematiku. Můžeme tam najít spoustu různě nevalidních stránek až po ty, které odpovídají normám. V tomto příspěvku, který je součástí ESWC 2015 Semantic Publishing Challenge, je prezentovana extrakce informace založena na analýze rendrovaných stránek spíše než na zdrojovém kódu. Výsledné popisy dokumetů jsou prezentovány v RDF modelu, který umožňuje kombinovat výsledky různých analýz na stránkách jako je vizuální nebo textová klasifikace. Takový přístup umožňuje definovat pravidla extrakce konkrétních dat bez ohledu na zdrojový kód.

Rok
2015
Strany
81–92
Časopis
Communications in Computer and Information Science, roč. 2015, č. 548, ISSN 1865-0929
Sborník
Semantic Web Evaluation Challenges, SemWebEval 2015 at ESWC 2015
Řada
Communications in Computer and Information Science
ISBN
978-3-319-25517-0
Vydavatel
Springer International Publishing
Místo
Portorož
DOI
UT WoS
000369663000007
EID Scopus
BibTeX
@inproceedings{BUT119821,
  author="Martin {Milička} and Radek {Burget}",
  title="Information Extraction from Web Sources based on Multi-aspect Content Analysis",
  booktitle="Semantic Web Evaluation Challenges, SemWebEval 2015 at ESWC 2015",
  year="2015",
  series="Communications in Computer and Information Science",
  journal="Communications in Computer and Information Science",
  volume="2015",
  number="548",
  pages="81--92",
  publisher="Springer International Publishing",
  address="Portorož",
  doi="10.1007/978-3-319-25518-7\{_}7",
  isbn="978-3-319-25517-0",
  issn="1865-0929",
  url="https://www.fit.vut.cz/research/publication/10840/"
}
Nahoru