Detail publikace
AT-ST: Self-Training Adaptation Strategy for OCR in Domains with Limited Transcriptions
samoučení, rozpoznávání textu, jazykový model, neanotovaná data, určování jistoty, augmentace dat
Tento článek se zabývá rozpoznáváním textu v doménách s omezeným počtem ručních anotací pomocí jednoduché strategie samoučení (self-training). Náš přístup by měl snížit nároky na lidskou anotaci, pokud je cílových dat v doméně dostatek, například při přepisu sbírky korespondence jedné osoby nebo rozsáhlého rukopisu. Navrhujeme trénovat prvotní (seed) systém na rozsáhlých datech z příbuzných domén smíchaných s dostupnými anotovanými daty z cílové domény. Tento systém přepisuje neanotovaná data z cílové domény, která se pak používají k trénování lepšího systému. Zkoumáme několik metrik jistoty a nakonec používáme pro výběr dat posteriorní pravděpodobnost přepisu. Kromě toho navrhujeme rozšířit data pomocí agresivního maskovacího schématu. Samoučením dosáhujeme snížení chybovosti znaků až o 55 % u ručně psaných dat a až o 38 % u tištěných dat. Samotné rozšíření o maskování snižuje chybovost přibližně o 10 % a jeho účinek je lépe patrný v případě obtížných ručně psaných dat.
@inproceedings{BUT175776,
author="Martin {Kišš} and Karel {Beneš} and Michal {Hradiš}",
title="AT-ST: Self-Training Adaptation Strategy for OCR in Domains with Limited Transcriptions",
booktitle="Lladós J., Lopresti D., Uchida S. (eds) Document Analysis and Recognition - ICDAR 2021",
year="2021",
series="Lecture Notes in Computer Science",
volume="12824",
pages="463--477",
publisher="Springer Nature Switzerland AG",
address="Lausanne",
doi="10.1007/978-3-030-86337-1\{_}31",
isbn="978-3-030-86336-4",
url="https://pero.fit.vutbr.cz/publications"
}