Detail publikace

Importance of Textlines in Historical Document Classification

KIŠŠ, M.; KOHÚT, J.; BENEŠ, K.; HRADIŠ, M. Importance of Textlines in Historical Document Classification. In Uchida, S., Barney, E., Eglin, V. (eds) Document Analysis Systems. Lecture Notes in Computer Science. La Rochelle: Springer Nature Switzerland AG, 2022. p. 158-170. ISBN: 978-3-031-06554-5.
Název česky
Význam řádků textu při klasifikaci historických dokumentů
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

Historical document classification, Script and font classification, Document origin localization, Document dating.

Abstrakt

Tento článek popisuje systém připravený na VUT v Brně pro soutěž ICDAR 2021 Historical Document Classification, experimenty vedoucí k jeho návrhu a hlavní zjištění. Řešené úlohy zahrnují klasifikaci skriptu a fontu, lokalizaci původu dokumentu a datování. Kombinovali jsme přístupy na úrovni čtvercových výřezů a na úrovni řádků textu, přičemž systém na úrovni řádků využívá existující, veřejně dostupný nástroj pro analýzu rozložení stránek. V obou systémech poskytují neuronové sítě lokální předpovědi, které jsou kombinovány do výstupu na úrovni stránky, a výsledky obou systémů jsou sloučeny pomocí lineární nebo logaritmicko-lineární fúze. Součástí řešení jsou také navržené chybové funkce vhodné pro weakly supervised klasifikační úlohu, kde je k dispozici více možných anotací, a také chybové funkce vhodné pro intervalovou regresi v datovací úloze. Systém na úrovni řádků výrazně zlepšuje výsledky v klasifikaci skriptu a fontu a v datovací úloze. Úplný systém dosáhl 98,48%, 88,84% a 79,69% přesnosti v úlohách klasifikace písma, písma a lokace. V úloze datování dosáhl náš systém průměrné absolutní chyby 21,91 let. Náš systém dosáhl nejlepších výsledků ve všech úlohách a stal se celkovým vítězem soutěže.

Rok
2022
Strany
158–170
Sborník
Uchida, S., Barney, E., Eglin, V. (eds) Document Analysis Systems
Řada
Lecture Notes in Computer Science
Svazek
13237
ISBN
978-3-031-06554-5
Vydavatel
Springer Nature Switzerland AG
Místo
La Rochelle
DOI
UT WoS
000870314500011
EID Scopus
BibTeX
@inproceedings{BUT178121,
  author="Martin {Kišš} and Jan {Kohút} and Karel {Beneš} and Michal {Hradiš}",
  title="Importance of Textlines in Historical Document Classification",
  booktitle="Uchida, S., Barney, E., Eglin, V. (eds) Document Analysis Systems",
  year="2022",
  series="Lecture Notes in Computer Science",
  volume="13237",
  pages="158--170",
  publisher="Springer Nature Switzerland AG",
  address="La Rochelle",
  doi="10.1007/978-3-031-06555-2\{_}11",
  isbn="978-3-031-06554-5",
  url="https://pero.fit.vutbr.cz/publications"
}
Nahoru