Detail publikace
TS-Net: OCR Trained to Switch Between Text Transcription Styles
Transcription styles, Adaptive instance normalization, Text recognition, Neural networks, CTC
Více přepisovatelů vytváří přepisy v nejednotných stylech přepisu. To představuje problém pro trénování konzistentních systémů neuronových sítí pro rozpoznávání textu. Navrhujeme Transcription Style Block (TSB), který se dokáže naučit přepínat mezi více styly přepisu bez explicitní znalosti pravidel přepisu. TSB je adaptivní normalizace podmíněná identifikátory transkripčních stylů, např. čísly dokumentů nebo jmény přepisovatelů, a lze ji přidat do jakékoli standardní sítě pro rozpoznávání textu. Ukazujeme, že TSB je robustní vůči počtu a složitosti transkripčních stylů a nezhoršuje výkonnost rozpoznávání textu. Díky časově a datově efektivní adaptaci na nový styl přepisu jsme dosáhli až 77\% relativního snížení chyby znaků na testovací sadě ve srovnání se sítí bez TSB.
@inproceedings{BUT169806,
author="Jan {Kohút} and Michal {Hradiš}",
title="TS-Net: OCR Trained to Switch Between Text Transcription Styles",
booktitle="Lladós J., Lopresti D., Uchida S. (eds) Document Analysis and Recognition - ICDAR 2021",
year="2021",
series="Lecture Notes in Computer Science",
journal="Lecture Notes in Computer Science",
volume="12824",
number="1",
pages="478--493",
publisher="Springer Nature Switzerland AG",
address="Lausanne",
doi="10.1007/978-3-030-86337-1\{_}32",
isbn="978-3-030-86336-4",
issn="0302-9743",
url="https://pero.fit.vutbr.cz/publications"
}