Detail publikace
Page Layout Analysis System for Unconstrained Historic Documents
Hradiš Michal, Ing., Ph.D. (UPGM)
Layout analysis, Historic documents analysis, Text line extraction
Pro automatický přepis historických dokumentů je nutná extrakce textových oblastí a jednotlivých textových řádků. Navrhujeme rozšířit systém detekce základní linie textu založený na konvolučních neuronových sítích přidáním předpovědí výšky řádku a hranic textového bloku do výstupu modelu, což systému umožní extrahovat komplexnější informace o rozložení. Ukazujeme také, že predikci orientace textu po pixelech lze použít pro zpracování dokumentů s více orientacemi textu. Ukazujeme, že navrhovaná metoda funguje dobře na základním detekčním souboru cBAD. Metodu navíc srovnáváme na nově zavedené datové sadě rozložení stránek PERO, kterou také zveřejňujeme.
@inproceedings{BUT175782,
author="Oldřich {Kodym} and Michal {Hradiš}",
title="Page Layout Analysis System for Unconstrained Historic Documents",
booktitle="Lladós J., Lopresti D., Uchida S. (eds) Document Analysis and Recognition - ICDAR 2021",
year="2021",
series="Lecture Notes in Computer Science",
pages="492--506",
publisher="Springer Nature Switzerland AG",
address="Lausanne",
doi="10.1007/978-3-030-86331-9\{_}32",
isbn="978-3-030-86330-2"
}