Detail publikace
Scraping Data from Web Pages using SPARQL Queries
Web scraping, Page rendering, Data extraction, RDF, SPARQL
Přes rostoucí využívání sémantických dat poskytují prosté webové stránky ve formátu HTML často jedinečné rozhraní pro přístup k datům z mnoha domén. Aby bylo možné tato data využít v počítačových aplikacích nebo je integrovat s jinými zdroji dat, je třeba je z kódu HTML extrahovat. V současné době to obvykle provádějí jednoúčelové programy nazývané scrapery. Pro každý zdroj dat je třeba vytvořit specifické scrapery, což vyžaduje důkladnou analýzu implementace zdrojové stránky v HTML. To činí z psaní a údržby sady scraperů složitý a časově náročný úkol. V tomto článku představujeme alternativní přístup, který umožňuje definovat scrapery na základě vizuálních vlastností prezentovaného obsahu namísto struktury kódu HTML. Nejprve renderujeme zdrojovou stránku a vytvoříme graf RDF, který popisuje vizuální vlastnosti každé části zobrazeného obsahu. Poté se pomocí jazyka SPARQL dotazujeme na tento model a získáváme data. Jak demonstrujeme na příkladech z praxe, tento přístup umožňuje snadno definovat robustnější scrappery, které lze použít na více webových stránkách a které se lépe vyrovnávají se změnami ve zdrojových dokumentech.
@inproceedings{BUT183806,
author="Radek {Burget}",
title="Scraping Data from Web Pages using SPARQL Queries",
booktitle="Web Engineering - 23rd International Conference, ICWE 2023",
year="2023",
series="Lecture Notes in Computer Science",
pages="293--300",
publisher="Springer Nature Switzerland AG",
address="Alicante",
doi="10.1007/978-3-031-34444-2\{_}21",
isbn="978-3-031-34443-5",
url="https://link.springer.com/chapter/10.1007/978-3-031-34444-2_21"
}