Information Extraction Tools from CEUR Workshop Pages

Název česky

Nástroje pro extrakci informací ze stránek workshopů CEUR

Typ

software

Licence

K využití výsledku jiným subjektem je vždy nutné nabytí licence

Licenční poplatek

Poskytovatel licence na výsledek nepožaduje licenční poplatek

Autoři

Burget Radek, doc. Ing., Ph.D. (UIFS)
Milička Martin, Ing.

Klíčová slova

information extraction, web mining, document analysis, text classification

Popis

Projekt implementuje aplikace a nástroje pro automatickou extrakci informací ze stránek workshopů CEUR-WS.org. Tyto nástroje zpracovávají vstupní HTML stránky a produkují strukturovaná propojená data ve formátu RDF. Implementace je založena na existujícím obecném rámci pro analýzu dokumentů FITLayout a mnoha dalších rozšířeních specifických pro danou úlohu. Výsledná data mohou být využita pro hodnocení kvality jednotlivých workshopů CEUR. Nástroje byly vytvořeny jako řešení Úlohy 1 soutěže Semantic Publishing Challenge 2015 v rámci konference ESWC 2015. V této soutěži získaly první cenu pro nástroj produkující nejlepší výsledky a cenu za nejvíce inovativní přístup. Představují případovou studii demonstrující praktickou použitelnost vyvinutých metod pro analýzu dokumentů.

Umístění

https://github.com/FitLayout/ToolsEswc

Licenční podmínky

Volně šiřitelný software poskytovaný pod licencí GNU GPL.

Projekty

Centrum excelence IT4Innovations, MŠMT, Operační program Výzkum a vývoj pro inovace, ED1.1.00/02.0070, 2011-2015, ukončen
Výzkum pokročilých metod ICT a jejich aplikace, VUT, Vnitřní projekty VUT, FIT-S-14-2299, 2014-2016, ukončen

Výzkumné skupiny

Výzkumná skupina informačních a databázových systémů (VZ IS)

Pracoviště

Ústav informačních systémů (UIFS)