2013-01-01から1年間の記事一覧
tesseract-ocrの日本語認識率を調べてみました。かつ[id:haskerl:20121229]に含まれるパラメーターを挿入し、40x40のマトリックスにubuntu 13.04に含まれる日本語フォントをマッピングしてみました。明朝体とゴシック体を試した結果…認識率50%…という恐ろし…
https://github.com/haskerl/kdconv/blob/master/adblock-signed.zip?raw=true Play Storeで公開しているAndroid版のAdblock Plusに日本語のフィルタを何件か追加してみました。お分かりになる人は適当にどうぞ。(野良apkです)追記: playstoreから消され…
PypiにTesseractTrainer0.1があったので自動生成で、どこまでいけるかを試してみた。TesseractTrainerにバグがあり、multipage_tif.pyを以下のように変えると、中間ファイルまでは生成してくれる。(完成品までは作ってくれない…というか、なんかいろいろバ…
バイナリ変換された部分の両規格作成元に開示要求をしたところ、S社はフリーソフトでそんなもの作るなと言われ、 V社は公開する気なんか毛頭無い。と言われました。ぶっちゃけ、日本初のオープンスタンダードなどあり得無いようです。というわけで、kdconvは…
変更回り PDF DPIを機種毎によって変更することにしました。 リサイズフィルタにSplineを採用しました levelを0%,75%,0.8にしました Paperwhiteでは画像圧縮にJPEG2000を採用しました。 https://github.com/haskerl/kdconvで公開しています。Change around I…
ビックカメラで購入。 githubのkdconvにはdpiとscaleを反映しました。paperwhiteオプションを追加していますので、適当に吐き出してくれるはずです。
blogger.tempus.orgさんにて公開されている、kdconv 1.0.4 dirty fork 0.1をgithubでforkし公開しました。 forkの際に、機能を色々付け足しております。以下追加リストです。 OCRスキャニング(tesseract-ocr 3.0.2で動作確認。前の日記のパラメータ含み。但…