Detail publikace

Scraping Data from Web Pages using SPARQL Queries

BURGET, R. Scraping Data from Web Pages using SPARQL Queries. Web Engineering - 23rd International Conference, ICWE 2023. Lecture Notes in Computer Science. Alicante: Springer Nature Switzerland AG, 2023. p. 293-300. ISBN: 978-3-031-34443-5.
Název česky
Získávání dat z webových stránek pomocí dotazů v jazyce SPARQL
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

Web scraping, Page rendering, Data extraction, RDF, SPARQL

Abstrakt

Přes rostoucí využívání sémantických dat poskytují prosté webové stránky ve formátu HTML často jedinečné rozhraní pro přístup k datům z mnoha domén. Aby bylo možné tato data využít v počítačových aplikacích nebo je integrovat s jinými zdroji dat, je třeba je z kódu HTML extrahovat. V současné době to obvykle provádějí jednoúčelové programy nazývané scrapery. Pro každý zdroj dat je třeba vytvořit specifické scrapery, což vyžaduje důkladnou analýzu implementace zdrojové stránky v HTML. To činí z psaní a údržby sady scraperů složitý a časově náročný úkol. V tomto článku představujeme alternativní přístup, který umožňuje definovat scrapery na základě vizuálních vlastností prezentovaného obsahu namísto struktury kódu HTML. Nejprve renderujeme zdrojovou stránku a vytvoříme graf RDF, který popisuje vizuální vlastnosti každé části zobrazeného obsahu. Poté se pomocí jazyka SPARQL dotazujeme na tento model a získáváme data. Jak demonstrujeme na příkladech z praxe, tento přístup umožňuje snadno definovat robustnější scrappery, které lze použít na více webových stránkách a které se lépe vyrovnávají se změnami ve zdrojových dokumentech.

Rok
2023
Strany
293–300
Sborník
Web Engineering - 23rd International Conference, ICWE 2023
Řada
Lecture Notes in Computer Science
ISBN
978-3-031-34443-5
Vydavatel
Springer Nature Switzerland AG
Místo
Alicante
DOI
BibTeX
@inproceedings{BUT183806,
  author="Radek {Burget}",
  title="Scraping Data from Web Pages using SPARQL Queries",
  booktitle="Web Engineering - 23rd International Conference, ICWE 2023",
  year="2023",
  series="Lecture Notes in Computer Science",
  pages="293--300",
  publisher="Springer Nature Switzerland AG",
  address="Alicante",
  doi="10.1007/978-3-031-34444-2\{_}21",
  isbn="978-3-031-34443-5",
  url="https://link.springer.com/chapter/10.1007/978-3-031-34444-2_21"
}
Nahoru