Detail publikace
Hierarchies in HTML Documents: Linking Text to Concepts
HTML, Extrakce informace, Ontologie, Logická struktura dokumentu
Pro úspěšné nasazení sémantického webu je nezbytné zajistit nástroje pro přiřazování velkých objemů dat, která jsou v současnosti dostupná v dokumentech HTML, k ontologiím sémantického webu. Vzhledem ke značné variabilitě kódu HTML je velmi omezující definovat přímé vazby mezi konkrétními vzory HTML kódu a jednotlivými koncepty. Navrhujeme proto přístup založený na modelování vizuální stránky dokumentů a na obecném popisu klíčových charakteristik vizuální prezentace dat. Jako další krok navrhujeme způsob využití tohoto modelu pro vyhledávání instancí konceptů v dokumentech s použitím algoritmů pro přibližné vyhledávání podstromů a regulárních výrazů.
@inproceedings{BUT17352,
author="Radek {Burget}",
title="Hierarchies in HTML Documents: Linking Text to Concepts",
booktitle="15th International Workshop on Database and Expert Systems Applications",
year="2004",
pages="186--190",
publisher="IEEE Computer Society",
address="Zaragoza",
isbn="0-7695-2195-9"
}