ScanSnapの保存はpdfかjpgか? OCR精度から考えてみた(1)

scansnap_pdfjpg

自炊(本の電子化)するときに、pdfとjpgどちらで保存すればいいのか迷うことがありました。

それは、
ScanSnapで読み込んだ後、
初めからpdfで保存したもの」と
jpgで保存したものをpdfにしたもの

OCRの精度の差がどのくらいあるのか?

この点がいつも気になっていたからなのです。

今回はこれを比べてみました。

●今回の結論から言えば…

長くなるので、結論から言いますと、

OCR の精度としては、
「初めからpdf保存」した方がいいが、
「jpg保存⇒pdf化」も使えるレベル

ということは、
・「マンガ」なら・・・初めからjpg(zip圧縮)保存
・「それ以外の本」は・・・pdf保存
と決めておくと迷わなくて済む。
ただし、明らかにきれいにスキャンできない本は「jpg⇒pdf」でも大丈夫

●保存の基本的な考え方

ここでjpgといっているのは、
1ページ=1ファイルのjpgファイルを「zip」で圧縮して1つにしたもののことです。

保存の考え方のベースにあるのは・・・

『保存したいのは「文字」なのか、「画像」としてなのか』

です。

ScanSnapで読み込むときの保存設定としては、

pdfで保存(全ページ=1ファイル)
・・・小説など、文字中心の本(OCR処理があったほうがいいもの)

jpgで保存(1ページ=1ファイル)
・・・マンガ(OCR処理の必要がないもの)

●なぜ小説とかも「jpg」で保存したくなるのか?

それでは、なぜ小説などの本も「jpg」で保存したくなったのか?なのですが、

jpgから行う作業が多い からなのです。

・画質の修正が必要になる場合がある

古い本などは余白に汚れが写り、きれいにスキャンできないものもあります。
その場合、jpgにしてから余白の汚れを取ったりと、画質の修正が必要になります。

・kindle用にmobi変換することが多い

「kindle PaperWhite」を購入してから、「mobi」という形式にも変換することが多くなりました。pdfのままだときれいに表示されませんし、余白の除去も必要です。
読みやすく変換するには、元ファイルがjpgのほうが手順的に楽です。
kindleで読むだけならpdfで持っている必要はないという気もしてきた訳です。

・古いiPadだとpdfよりjpgのほうがサクサク動く

私の使っているのはiPad3という古い機種なので、pdfよりjpg(zip圧縮)のほうが動作が軽いということでzipにしたものをiPadに入れて読んでます。

 

●それなら、最初からjpgで保存しておけばいいのでは?

pdf⇒jpgに変換。
どうせこの手間をかけるなら、
「最初からjpg保存から始めた方が楽なのでは」という考えがでてきます。

PCやiPadで読むのがメインなのか、kindle PaperWhiteで読むのがメインなのかによっても、手間の多さが違ってきます。

だったら、全部jpgで保存しとけば?となりますが、単純にそうはなりません。

jpg保存に統一できない理由・・・
jpgでは文字検索できない ⇒ pdfにしておきたい から。

ここで疑問。
jpg⇒pdfに変換したものは、
元々pdfのものと、OCRの精度は違ってくるのか?

というわけです。

続きはこちら