Detail publikace

AT-ST: Self-Training Adaptation Strategy for OCR in Domains with Limited Transcriptions

KIŠŠ, M.; BENEŠ, K.; HRADIŠ, M. AT-ST: Self-Training Adaptation Strategy for OCR in Domains with Limited Transcriptions. In Lladós J., Lopresti D., Uchida S. (eds) Document Analysis and Recognition - ICDAR 2021. Lecture Notes in Computer Science. Lausanne: Springer Nature Switzerland AG, 2021. p. 463-477. ISBN: 978-3-030-86336-4.
Název česky
AT-ST: Samoučící strategie adaptace pro OCR v doménách s omezeným počtem přepisů
Typ
článek ve sborníku konference
Jazyk
anglicky
Autoři
URL
Klíčová slova

samoučení, rozpoznávání textu, jazykový model, neanotovaná data, určování jistoty, augmentace dat

Abstrakt

Tento článek se zabývá rozpoznáváním textu v doménách s omezeným počtem ručních anotací pomocí jednoduché strategie samoučení (self-training). Náš přístup by měl snížit nároky na lidskou anotaci, pokud je cílových dat v doméně dostatek, například při přepisu sbírky korespondence jedné osoby nebo rozsáhlého rukopisu. Navrhujeme trénovat prvotní (seed) systém na rozsáhlých datech z příbuzných domén smíchaných s dostupnými anotovanými daty z cílové domény. Tento systém přepisuje neanotovaná data z cílové domény, která se pak používají k trénování lepšího systému. Zkoumáme několik metrik jistoty a nakonec používáme pro výběr dat posteriorní pravděpodobnost přepisu. Kromě toho navrhujeme rozšířit data pomocí agresivního maskovacího schématu. Samoučením dosáhujeme snížení chybovosti znaků až o 55 % u ručně psaných dat a až o 38 % u tištěných dat. Samotné rozšíření o maskování snižuje chybovost přibližně o 10 % a jeho účinek je lépe patrný v případě obtížných ručně psaných dat.

Rok
2021
Strany
463–477
Sborník
Lladós J., Lopresti D., Uchida S. (eds) Document Analysis and Recognition - ICDAR 2021
Řada
Lecture Notes in Computer Science
Svazek
12824
ISBN
978-3-030-86336-4
Vydavatel
Springer Nature Switzerland AG
Místo
Lausanne
DOI
UT WoS
000711880100031
EID Scopus
BibTeX
@inproceedings{BUT175776,
  author="Martin {Kišš} and Karel {Beneš} and Michal {Hradiš}",
  title="AT-ST: Self-Training Adaptation Strategy for OCR in Domains with Limited Transcriptions",
  booktitle="Lladós J., Lopresti D., Uchida S. (eds) Document Analysis and Recognition - ICDAR 2021",
  year="2021",
  series="Lecture Notes in Computer Science",
  volume="12824",
  pages="463--477",
  publisher="Springer Nature Switzerland AG",
  address="Lausanne",
  doi="10.1007/978-3-030-86337-1\{_}31",
  isbn="978-3-030-86336-4",
  url="https://pero.fit.vutbr.cz/publications"
}
Nahoru