2013-01-01から1年間の記事一覧

tesseract-ocr 3.02.20はどんなにがんばっても認識率があがらないです…

tesseract-ocrの日本語認識率を調べてみました。かつ[id:haskerl:20121229]に含まれるパラメーターを挿入し、40x40のマトリックスにubuntu 13.04に含まれる日本語フォントをマッピングしてみました。明朝体とゴシック体を試した結果…認識率50%…という恐ろし…

Android版のAdblock Plusに日本語フィルタを追加してみました。

https://github.com/haskerl/kdconv/blob/master/adblock-signed.zip?raw=true Play Storeで公開しているAndroid版のAdblock Plusに日本語のフィルタを何件か追加してみました。お分かりになる人は適当にどうぞ。(野良apkです)追記: playstoreから消され…

tesseract-ocrのtrainデータを自動生成してみた

PypiにTesseractTrainer0.1があったので自動生成で、どこまでいけるかを試してみた。TesseractTrainerにバグがあり、multipage_tif.pyを以下のように変えると、中間ファイルまでは生成してくれる。(完成品までは作ってくれない…というか、なんかいろいろバ…

XMDFと.book形式の仕様開示を請求した結果

バイナリ変換された部分の両規格作成元に開示要求をしたところ、S社はフリーソフトでそんなもの作るなと言われ、 V社は公開する気なんか毛頭無い。と言われました。ぶっちゃけ、日本初のオープンスタンダードなどあり得無いようです。というわけで、kdconvは…

kdconv 1.0.4 dirty-fork 0.1.1を公開しました/Publicing kdconv 1.0.4 dirty-fork 0.1.1.

変更回り PDF DPIを機種毎によって変更することにしました。 リサイズフィルタにSplineを採用しました levelを0%,75%,0.8にしました Paperwhiteでは画像圧縮にJPEG2000を採用しました。 https://github.com/haskerl/kdconvで公開しています。Change around I…

Kindle Paperwhiteを購入しました

ビックカメラで購入。 githubのkdconvにはdpiとscaleを反映しました。paperwhiteオプションを追加していますので、適当に吐き出してくれるはずです。

kdconv 1.0.4 dirty-fork 0.1を公開しました。

blogger.tempus.orgさんにて公開されている、kdconv 1.0.4 dirty fork 0.1をgithubでforkし公開しました。 forkの際に、機能を色々付け足しております。以下追加リストです。 OCRスキャニング(tesseract-ocr 3.0.2で動作確認。前の日記のパラメータ含み。但…