Detail produktu

Information Extraction Tools from CEUR Workshop Pages

Vznik: 2015

Název česky
Nástroje pro extrakci informací ze stránek workshopů CEUR
Typ
software
Licence
K využití výsledku jiným subjektem je vždy nutné nabytí licence
Licenční poplatek
Poskytovatel licence na výsledek nepožaduje licenční poplatek
Autoři
Burget Radek, doc. Ing., Ph.D. (UIFS)
Milička Martin, Ing.
Klíčová slova

information extraction, web mining, document analysis, text classification

Popis

Projekt implementuje aplikace a nástroje pro automatickou extrakci informací ze stránek workshopů CEUR-WS.org. Tyto nástroje zpracovávají vstupní HTML stránky a produkují strukturovaná propojená data ve formátu RDF. Implementace je založena na existujícím obecném rámci pro analýzu dokumentů FITLayout a mnoha dalších rozšířeních specifických pro danou úlohu. Výsledná data mohou být využita pro hodnocení kvality jednotlivých workshopů CEUR. Nástroje byly vytvořeny jako řešení Úlohy 1 soutěže Semantic Publishing Challenge 2015 v rámci konference ESWC 2015. V této soutěži získaly první cenu pro nástroj produkující nejlepší výsledky a cenu za nejvíce inovativní přístup. Představují případovou studii demonstrující praktickou použitelnost vyvinutých metod pro analýzu dokumentů.

Umístění
Licenční podmínky

Volně šiřitelný software poskytovaný pod licencí GNU GPL.

Projekty
Centrum excelence IT4Innovations, MŠMT, Operační program Výzkum a vývoj pro inovace, ED1.1.00/02.0070, 2011-2015, ukončen
Výzkum pokročilých metod ICT a jejich aplikace, VUT, Vnitřní projekty VUT, FIT-S-14-2299, 2014-2016, ukončen
Výzkumné skupiny
Pracoviště
Nahoru