Detail publikace
Scraping Data from Web Pages using SPARQL Queries
Přes rostoucí využívání sémantických dat poskytují prosté webové stránky ve formátu HTML často jedinečné rozhraní pro přístup k datům z mnoha domén. Aby bylo možné tato data využít v počítačových aplikacích nebo je integrovat s jinými zdroji dat, je třeba je z kódu HTML extrahovat. V současné době to obvykle provádějí jednoúčelové programy nazývané scrapery. Pro každý zdroj dat je třeba vytvořit specifické scrapery, což vyžaduje důkladnou analýzu implementace zdrojové stránky v HTML. To činí z psaní a údržby sady scraperů složitý a časově náročný úkol. V tomto článku představujeme alternativní přístup, který umožňuje definovat scrapery na základě vizuálních vlastností prezentovaného obsahu namísto struktury kódu HTML. Nejprve renderujeme zdrojovou stránku a vytvoříme graf RDF, který popisuje vizuální vlastnosti každé části zobrazeného obsahu. Poté se pomocí jazyka SPARQL dotazujeme na tento model a získáváme data. Jak demonstrujeme na příkladech z praxe, tento přístup umožňuje snadno definovat robustnější scrappery, které lze použít na více webových stránkách a které se lépe vyrovnávají se změnami ve zdrojových dokumentech.
@INPROCEEDINGS{FITPUB12958, author = "Radek Burget", title = "Scraping Data from Web Pages using SPARQL Queries", pages = "293--300", booktitle = "Web Engineering - 23rd International Conference, ICWE 2023", series = "Lecture Notes in Computer Science", year = 2023, location = "Alicante, ES", publisher = "Springer Nature Switzerland AG", ISBN = "978-3-031-34443-5", doi = "10.1007/978-3-031-34444-2\_21", language = "english", url = "https://www.fit.vut.cz/research/publication/12958" }