電子文書のハイパーギア
PDF変換、OCR、QRコード、画面キャプチャ禁止

電子文書のハイパーギア  これからの電子文書
プライバシー | サイトマップ
お問い合せ
カテゴリー
PDFでできること
QRコードでできること
デジタル複合機でできること
情報を守るために
用語・法律・技術トレンド
株式会社ハイパーギア
株式会社ハイパーギアのメインページです。当社の製品情報やセミナー・展示会のお知らせなど、あなたのオフィスに快適な環境を提供する情報が満載です。

透明テキスト付きPDF

透明テキスト付きOCR
紙文書の電子化で大きな課題は、電子化自体ではなく、電子化された文書を
如何に少ない手間で検索可能にするかという点です。
最近の複合機では、高精度のカラースキャンでも、毎分50ページ以上の
速度で、JPEG/PDFなどに変換することができます。
しかし、それだけでは、属性データやテキストデータが含まれませんから
いちいち人間が見て探さないかぎり、目的の文書を探すことができません。
スキャンされた画像データを文字データに変換する技術にOCRと呼ばれる
技術があり、パソコンのソフトなどとしても販売されています。
しかし、特に日本語の場合は、文字の種類が非常に多く、
OCRによる変換にはかならず誤変換があります。
OCRでは、99.5%とか、99.7%の変換精度などと言われるものが
ありますが、これは条件のよい場合で、新聞の本文、定型の論文紙などは
かなり高い精度がでることがありますが、新聞でも見出しとか
図表のはいった雑誌、広告など、レイアウトの工夫された文書では
かなり変換精度が落ちます。
一般にOCR変換された結果のテキストファイルだけでは、判読できない
ことが多く、OCR結果だけで利用する場合は、非常な手間をかけて、
誤変換のあった部分を修正し、利用することがあります。
しかし、この方法では1ページ、数分から数十分も修正に時間が
かかってしまい現実的ではありません。
そこで、登場したのが透明テキスト付PDFという技術です。
ここでは、元の画像データをOCR変換したテキストを透明な色で
元の画像データ上に張り付けたPDFに変換します。
人間がみるときは、スキャンした画像データですので、OCRに
誤変換があってもまったく気になりません。さらに正しく変換できた
部分はPDFの検索機能で、その文字の近傍まで正確に検索できますので
多くの場合、十分な検索として利用できます。
弊社のソフトで、100万枚以上の紙文書をこの検索可能な
透明テキスト付PDFに変換して活用していただいてる事例もあります。

透明テキスト付きOCR
透明テキスト付PDFはこのように非常に便利なものですが、
欠点としては、誤変換の部分の修正が見にくく面倒であるという点があります。
これは、テキスト情報が透明ですので、検索時に画像が見やすいのですが、
修正時は修正箇所も透明ですので、探しにくいのです。
そこで、弊社のPscanServでは更に追加の機能として、
この透明テキスト付PDFをPDFの機能であるレイヤー機能を
利用して実現する、レイヤーPDFを自動生成できます。
これですと、画像ソフトでの処理のように、画像レイヤーと
テキストレイヤーを切り替えて、編集時には、テキストレイヤー
だけ表示すれば、非常に見やすく、編集できるようになります。

透明テキスト付きOCR
さらに弊社の透明テキスト付きPDFでは、一文字ずつOCR変換したときに
判定する変換精度の情報を利用して、変換精度が高くないと判定される
文字を透明でなく、赤字などで表示して、編集しやすくする機能も
あります。

透明テキスト付きPDF

この機能は弊社の以下の製品で可能です。
  HG/PscanServPlus/Pro

サンプルファイルはこちらになります。
  OCR処理なし
  OCR透明テキスト
  OCR(レイヤー付・フォント24ptまでの認識制限)
  OCR(レイヤー付・フォント30ptまでの認識制限)
  OCR(レイヤー付・認識文字としての信頼度が低い文字は赤字)

よろしければ、こちらの項目もご参考までにご覧ください。
  サーチャブルPDF
  レイヤーPDF
  全文検索可能なPDF

より詳しいプレゼンやデモにご興味ございますか?
  お問合せはこちらまで

前の記事へ   ホームに戻る   次の記事へ