ScanSnapで読み込んだ後、
「初めからpdfで保存したもの」と「jpgで保存したものをpdfにしたもの」
OCRの精度の差がどのくらいあるのか?
前回からの続きです。
●OCR精度の検証
次の3パターンで、OCRがどう処理されているかを確認してみました。
② jpgで保存⇒pdfに変換
③ pdfで保存⇒jpgに変換⇒再度pdfに変換
使用スキャナー:ScanSnap iX500
※スキャンの設定は標準レベルです(スーパーファイン、圧縮率は標準)
OCR:ScanSnap付属ソフト
読み込みに使ったページ
■結果
実験は2回行いました。(スキャン2回)
赤字は誤認識、青字は正しく認識された箇所です。
1回目の比較
2回目の比較
2回やってみて、結果は必ずしも同じではありませんでした。
スキャンした時の状態によって変わるようですね。
●1回目では「pdf保存のもの(①)」が精度としては高かったが、2回目では①にも誤認識があった。
●「jpg保存⇒pdf化(②)」のほうが正確に読めた箇所があった。一概に①の方が断然よいとは言えない。
●「再pdf化(③)」は①よりも誤認識が多くなった。(ただし、このあと触れるが画質補正によって結果は良くなる。)
「pdf保存のもの(①)」が一番よかったのですが、「jpg保存⇒pdf化(②)」も私としては使えると思っています。
画像補正が必要な本は「jpg保存⇒pdf化(②)」のほうがいいともいえます。
・・・あとは結果からご判断いただければ。
もうひとつの確認。画質修正によるOCR精度の変化
もうひとつ。
「画質修正したら、OCR結果が変わるのか?」
何度か画質を補正して確認しました。
■結果
OCRの結果は当然変わりました。
中には、誤認識が2箇所だけ!になる時もありました。
逆にこれは補正次第で良くも悪くもなるということになりますね。
他の本も試してみています。
しかし、画質補正によって、正しく読めた箇所もあれば誤認識になった箇所もあり、どれがいいとは言えない結果でした。
補正の強さによって違ってくるため、最も良い補正度合いはわかりません。
見た目がきれいになったからといって、OCRが正確になるとは必ずしも言えないですし、すべて検証するというのも現実的ではないので。
正しく認識できるようになる可能性があるといったところです。
結論としては…
以上の結果から、
文字検索する可能性のある本は、とりあえず「pdfで保存」しておくほうがよい。
ただし、「jpg⇒pdf」でもOCR精度を高めることもできるので、黄ばんでいて汚れが写るような本など確実に画質補正が必要な場合には「jpgで保存」からスタートでもOK。(jpg保存⇒画質修正⇒pdf化)
おさらい/保存の考え方
*保存したいのは「文字」なのか、「画像」としてなのか。
*jpg⇒pdfに変換してもOCR精度を高められる可能性はある。
●マンガ(OCR処理の必要がないもの)
・・・とりあえず、jpgで保存(1ページ=1ファイル)
●小説など、文字中心の本(OCR処理があったほうがいいもの)
・・・とりあえず、pdfで保存(全ページ=1ファイル)
・・・画質補正が前提なら、jpg保存⇒pdf化でもOK
これを基本に、変なところで迷わず、自炊を楽しみましょう。
ある意味、妥協も必要ですね。
それでも迷うのであれば・・・
おまけの記事をどうぞ。