Detail projektu

Pokročilá extrakce a rozpoznávání obsahu tištěných a rukou psaných digitalizátů pro zvýšení jejich přístupnosti a využitelnosti

Období řešení: 1. 3. 2018 – 31. 12. 2022

Typ projektu: grant

Kód: DG18P02OVV055

Agentura: Ministerstvo kultury ČR

Program: Program na podporu aplikovaného výzkumu a experimentálního vývoje národní a kulturní identity na léta 2016 až 2022 (NAKI II)

Název anglicky
Advanced content extraction and recognition for printed and handwritten documents for better accessibility and usability
Typ
grant
Klíčová slova

pokročilé metody extrakce, rozpoznávání obsahu, digitalizáty, zvýšení využitelnosti

Abstrakt

Cílem projektu je vytvoření nástrojů a technologií pro zpřístupnění obsahu digitalizovaných historických dokumentů, které budou využívat aktuální vývoj v oblasti počítačového vidění, strojového učení a jazykového modelování a které v symbióze se součanými postupy a systémy vyhledávání, prezentace a zveřejňování digitalizátů umožní snažší vyhledávání a využití obsahu digitalizátů v případech, kde to dnes není technicky možné. V rámci projektu budou vytvořeny nástroje pro dosažení co nejvyšší úroveně automatizace v celém řetězci digitalizace a pro rošíření automatické analýzy obsahu i na dokumenty, které nyní není možné automaticky zpracovat. Nástroje, které v projektu vzniknou, umožní automatickou kontrolu a zlepšování kvality digitalizátů, automatický přepis tištěných textů s kvalitou nedostatečnou pro aktuálně dostupné nástroje, polo-automatický přepis ručně psaných dokumentů a automatickou extrakci semantické informace z polo-strukturovaných dokumentů (např. evidenční štíky a matriky). Tyto nástroje a postupy budou ověřeny zpracováním vybraných sad digitalizátů také v rámci poloprovozu ve spolupráci s MZK.

Řešitelé
Publikace

2022

2021

2020

Nahoru