tesseract-ocrのtrainデータを自動生成してみた

PypiにTesseractTrainer0.1があったので自動生成で、どこまでいけるかを試してみた。

TesseractTrainerにバグがあり、multipage_tif.pyを以下のように変えると、中間ファイルまでは生成してくれる。（完成品までは作ってくれない…というか、なんかいろいろバグってる）

tifs = sorted(glob.glob(self.indiv_page_prefix + '*.tif'),key=os.path.getmtime) # all individual tifs
# tifs.sort(key=)

と

boxline = '%s %d %d %d %d %d' % (char, tess_char_x0, tess_char_y1 , tess_char_x1, tess_char_y0 , page_nb)

が、やっぱり自動生成なので、tesseract-ocrの配布サイトに有るtrainデータには遥かに及ばない。…というか、配布サイトに有るデータですらひどい認識率。…実用になるまでまだまだ先っぽい…。AcrobatをWineで動かして、スクリプトか作ってバッチでスキャンさせてみようかしらん…。何とも上手い方法が見つからないもんだ…。