Detail projektu
Pokročilá extrakce a rozpoznávání obsahu tištěných a rukou psaných digitalizátů pro zvýšení jejich přístupnosti a využitelnosti
Období řešení: 1. 3. 2018 – 31. 12. 2022
Typ projektu: grant
Kód: DG18P02OVV055
Agentura: Ministerstvo kultury ČR
pokročilé metody extrakce, rozpoznávání obsahu, digitalizáty, zvýšení využitelnosti
Cílem projektu je vytvoření nástrojů a technologií pro zpřístupnění obsahu digitalizovaných historických dokumentů, které budou využívat aktuální vývoj v oblasti počítačového vidění, strojového učení a jazykového modelování a které v symbióze se součanými postupy a systémy vyhledávání, prezentace a zveřejňování digitalizátů umožní snažší vyhledávání a využití obsahu digitalizátů v případech, kde to dnes není technicky možné. V rámci projektu budou vytvořeny nástroje pro dosažení co nejvyšší úroveně automatizace v celém řetězci digitalizace a pro rošíření automatické analýzy obsahu i na dokumenty, které nyní není možné automaticky zpracovat. Nástroje, které v projektu vzniknou, umožní automatickou kontrolu a zlepšování kvality digitalizátů, automatický přepis tištěných textů s kvalitou nedostatečnou pro aktuálně dostupné nástroje, polo-automatický přepis ručně psaných dokumentů a automatickou extrakci semantické informace z polo-strukturovaných dokumentů (např. evidenční štíky a matriky). Tyto nástroje a postupy budou ověřeny zpracováním vybraných sad digitalizátů také v rámci poloprovozu ve spolupráci s MZK.
Bařina David, Ing., Ph.D. (UPGM)
Beneš Karel, Ing. (UPGM)
Hradiš Michal, Ing., Ph.D. (UPGM)
Juránek Roman, Ing., Ph.D. (UPGM)
Kodym Oldřich, Ing., Ph.D.
Zemčík Pavel, prof. Dr. Ing., dr. h. c. (UPGM)
2022
- DVOŘÁKOVÁ, M.; HRADIŠ, M.; ŽABIČKA, P.; KOHÚT, J.; KIŠŠ, M.; BENEŠ, K. Využití PERO OCR při přepisu rukopisů. Archivní časopis, 2022, roč. 72, č. 1,
s. 14-27. ISSN: 0004-0398. Detail - KIŠŠ, M.; KOHÚT, J.; BENEŠ, K.; HRADIŠ, M. Importance of Textlines in Historical Document Classification. In Uchida, S., Barney, E., Eglin, V. (eds) Document Analysis Systems. Lecture Notes in Computer Science. La Rochelle: Springer Nature Switzerland AG, 2022.
p. 158-170. ISBN: 978-3-031-06554-5. Detail
2021
- KIŠŠ, M.; BENEŠ, K.; HRADIŠ, M. AT-ST: Self-Training Adaptation Strategy for OCR in Domains with Limited Transcriptions. In Lladós J., Lopresti D., Uchida S. (eds) Document Analysis and Recognition - ICDAR 2021. Lecture Notes in Computer Science. Lausanne: Springer Nature Switzerland AG, 2021.
p. 463-477. ISBN: 978-3-030-86336-4. Detail - KODYM, O.; HRADIŠ, M. Page Layout Analysis System for Unconstrained Historic Documents. In Lladós J., Lopresti D., Uchida S. (eds) Document Analysis and Recognition - ICDAR 2021. Lecture Notes in Computer Science. Lausanne: Springer Nature Switzerland AG, 2021.
p. 492-506. ISBN: 978-3-030-86330-2. Detail - KODYM, O.; HRADIŠ, M. TG2: text-guided transformer GAN for restoring document readability and perceived quality. International Journal on Document Analysis and Recognition, 2021, vol. 2021, no. 1,
p. 1-14. ISSN: 1433-2825. Detail - KOHÚT, J.; HRADIŠ, M. TS-Net: OCR Trained to Switch Between Text Transcription Styles. In Lladós J., Lopresti D., Uchida S. (eds) Document Analysis and Recognition - ICDAR 2021. Lecture Notes in Computer Science. Lecture Notes in Computer Science. Lausanne: Springer Nature Switzerland AG, 2021.
p. 478-493. ISBN: 978-3-030-86336-4. ISSN: 0302-9743. Detail
2020
- KIŠŠ, M.; HRADIŠ, M.; KODYM, O. Brno Mobile OCR Dataset. In Proceedings of the International Conference on Document Analysis and Recognition, ICDAR. Sydney: Institute of Electrical and Electronics Engineers, 2020.
p. 1352-1357. ISBN: 978-1-7281-3015-6. Detail