tesseract-ocr 3.02.20はどんなにがんばっても認識率があがらないです…

tesseract-ocrの日本語認識率を調べてみました。かつ[id:haskerl:20121229]に含まれるパラメーターを挿入し、40x40のマトリックスにubuntu 13.04に含まれる日本語フォントをマッピングしてみました。明朝体とゴシック体を試した結果…認識率50%…という恐ろしい結果に。

もうこれはtesseract-ocrのアルゴリズムがおかしいとしか思えないです…(T_T)。

SVMとかあるみたいだし本体に手を入れないとだめそうですね…ちょっと見てみます。

ちなみにtesseract-ocrの内部構造はhttps://tesseract-ocr.googlecode.com/files/TesseractOSCON.pdfが参考になります。