Detail publikace

Scraping Data from Web Pages using SPARQL Queries

BURGET, R. Scraping Data from Web Pages using SPARQL Queries. Web Engineering - 23rd International Conference, ICWE 2023. Lecture Notes in Computer Science. Alicante: Springer Nature Switzerland AG, 2023. p. 293-300. ISBN: 978-3-031-34443-5.

Název česky

Získávání dat z webových stránek pomocí dotazů v jazyce SPARQL

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

Burget Radek, doc. Ing., Ph.D. (UIFS)

URL

https://link.springer.com/chapter/10.1007/978-3-031-34444-2_21

Klíčová slova

Web scraping, Page rendering, Data extraction, RDF, SPARQL

Abstrakt

Přes rostoucí využívání sémantických dat poskytují prosté webové stránky ve formátu HTML často jedinečné rozhraní pro přístup k datům z mnoha domén. Aby bylo možné tato data využít v počítačových aplikacích nebo je integrovat s jinými zdroji dat, je třeba je z kódu HTML extrahovat. V současné době to obvykle provádějí jednoúčelové programy nazývané scrapery. Pro každý zdroj dat je třeba vytvořit specifické scrapery, což vyžaduje důkladnou analýzu implementace zdrojové stránky v HTML. To činí z psaní a údržby sady scraperů složitý a časově náročný úkol. V tomto článku představujeme alternativní přístup, který umožňuje definovat scrapery na základě vizuálních vlastností prezentovaného obsahu namísto struktury kódu HTML. Nejprve renderujeme zdrojovou stránku a vytvoříme graf RDF, který popisuje vizuální vlastnosti každé části zobrazeného obsahu. Poté se pomocí jazyka SPARQL dotazujeme na tento model a získáváme data. Jak demonstrujeme na příkladech z praxe, tento přístup umožňuje snadno definovat robustnější scrappery, které lze použít na více webových stránkách a které se lépe vyrovnávají se změnami ve zdrojových dokumentech.

Rok

2023

Strany

293–300

Sborník

Web Engineering - 23rd International Conference, ICWE 2023

Řada

Lecture Notes in Computer Science

ISBN

978-3-031-34443-5

Vydavatel

Springer Nature Switzerland AG

Místo

Alicante

DOI

10.1007/978-3-031-34444-2_21

BibTeX

@inproceedings{BUT183806,
  author="Radek {Burget}",
  title="Scraping Data from Web Pages using SPARQL Queries",
  booktitle="Web Engineering - 23rd International Conference, ICWE 2023",
  year="2023",
  series="Lecture Notes in Computer Science",
  pages="293--300",
  publisher="Springer Nature Switzerland AG",
  address="Alicante",
  doi="10.1007/978-3-031-34444-2\{_}21",
  isbn="978-3-031-34443-5",
  url="https://link.springer.com/chapter/10.1007/978-3-031-34444-2_21"
}