Detail publikace
AT-ST: Self-Training Adaptation Strategy for OCR in Domains with Limited Transcriptions
Beneš Karel, Ing. (UPGM FIT VUT)
Hradiš Michal, Ing., Ph.D. (UPGM FIT VUT)
samoučení, rozpoznávání textu, jazykový model, neanotovaná data, určování jistoty, augmentace dat
Tento článek se zabývá rozpoznáváním textu v doménách s omezeným počtem ručních anotací pomocí jednoduché strategie samoučení (self-training). Náš přístup by měl snížit nároky na lidskou anotaci, pokud je cílových dat v doméně dostatek, například při přepisu sbírky korespondence jedné osoby nebo rozsáhlého rukopisu. Navrhujeme trénovat prvotní (seed) systém na rozsáhlých datech z příbuzných domén smíchaných s dostupnými anotovanými daty z cílové domény. Tento systém přepisuje neanotovaná data z cílové domény, která se pak používají k trénování lepšího systému. Zkoumáme několik metrik jistoty a nakonec používáme pro výběr dat posteriorní pravděpodobnost přepisu. Kromě toho navrhujeme rozšířit data pomocí agresivního maskovacího schématu. Samoučením dosáhujeme snížení chybovosti znaků až o 55 % u ručně psaných dat a až o 38 % u tištěných dat. Samotné rozšíření o maskování snižuje chybovost přibližně o 10 % a jeho účinek je lépe patrný v případě obtížných ručně psaných dat.
@INPROCEEDINGS{FITPUB12464, author = "Martin Ki\v{s}\v{s} and Karel Bene\v{s} and Michal Hradi\v{s}", title = "AT-ST: Self-Training Adaptation Strategy for OCR in Domains with Limited Transcriptions", pages = "463--477", booktitle = "Llad\'{o}s J., Lopresti D., Uchida S. (eds) Document Analysis and Recognition - ICDAR 2021", series = "Lecture Notes in Computer Science", volume = 12824, year = 2021, location = "Lausanne, CH", publisher = "Springer Nature Switzerland AG", ISBN = "978-3-030-86336-4", doi = "10.1007/978-3-030-86337-1\_31", language = "english", url = "https://www.fit.vut.cz/research/publication/12464" }