Detail publikace

Scraping Data from Web Pages using SPARQL Queries

BURGET Radek. Scraping Data from Web Pages using SPARQL Queries. In: Web Engineering - 23rd International Conference, ICWE 2023. Lecture Notes in Computer Science. Alicante: Springer Nature Switzerland AG, 2023, s. 293-300. ISBN 978-3-031-34443-5. Dostupné z: https://link.springer.com/chapter/10.1007/978-3-031-34444-2_21

Název česky

Získávání dat z webových stránek pomocí dotazů v jazyce SPARQL

Typ

článek ve sborníku konference

Jazyk

angličtina

Autoři

Burget Radek, doc. Ing., Ph.D. (UIFS FIT VUT)

URL

https://link.springer.com/chapter/10.1007/978-3-031-34444-2_21

Abstrakt

Přes rostoucí využívání sémantických dat poskytují prosté webové stránky ve formátu HTML často jedinečné rozhraní pro přístup k datům z mnoha domén. Aby bylo možné tato data využít v počítačových aplikacích nebo je integrovat s jinými zdroji dat, je třeba je z kódu HTML extrahovat. V současné době to obvykle provádějí jednoúčelové programy nazývané scrapery. Pro každý zdroj dat je třeba vytvořit specifické scrapery, což vyžaduje důkladnou analýzu implementace zdrojové stránky v HTML. To činí z psaní a údržby sady scraperů složitý a časově náročný úkol. V tomto článku představujeme alternativní přístup, který umožňuje definovat scrapery na základě vizuálních vlastností prezentovaného obsahu namísto struktury kódu HTML. Nejprve renderujeme zdrojovou stránku a vytvoříme graf RDF, který popisuje vizuální vlastnosti každé části zobrazeného obsahu. Poté se pomocí jazyka SPARQL dotazujeme na tento model a získáváme data. Jak demonstrujeme na příkladech z praxe, tento přístup umožňuje snadno definovat robustnější scrappery, které lze použít na více webových stránkách a které se lépe vyrovnávají se změnami ve zdrojových dokumentech.

Rok

2023

Strany

293-300

Sborník

Web Engineering - 23rd International Conference, ICWE 2023

Řada

Lecture Notes in Computer Science

Konference

23rd International Conference on Web Engineering, Alicante, ES

ISBN

978-3-031-34443-5

Vydavatel

Springer Nature Switzerland AG

Místo

Alicante, ES

DOI

10.1007/978-3-031-34444-2_21

BibTeX

@INPROCEEDINGS{FITPUB12958,
   author = "Radek Burget",
   title = "Scraping Data from Web Pages using SPARQL Queries",
   pages = "293--300",
   booktitle = "Web Engineering - 23rd International Conference, ICWE 2023",
   series = "Lecture Notes in Computer Science",
   year = 2023,
   location = "Alicante, ES",
   publisher = "Springer Nature Switzerland AG",
   ISBN = "978-3-031-34443-5",
   doi = "10.1007/978-3-031-34444-2\_21",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12958"
}