スキャナで読むだけで検索可能に

大量の紙文書なども、スキャナで読み込みPDFに直接変換することにより、非常に高速に,手軽に電子化できるようになりましたが、大きな問題点がありました。それは、画像として扱われるため,検索ができないということです。
また、一方OCRソフトウェアなどを使うことにより文字認識をすることも可能ですが、手作業による認識領域の設定、誤変換の訂正など,1ページあたり膨大な手数をかけないと実用になりませんでした。
PscanOCRは,表示はスキャンしたイメージを用い、検索用にOCRで生成したテキストデータを見えないように貼り付けることにより、任意の全文検索が可能で,しかも誤変換、レイアウト誤りに関係なく原文と同じイメージを見ることができるシステムです。
またこれらの作業はスキャンと同時に、人手をまったく介することなく自動的に行うことができますので、非常に効率的に生成できます。

ページ内位置も特定した検索が可能


今までの,イメージファイルと単純なOCRによるテキストファイルをリンク付けした検索システムと異なり,一行ずつそのテキストがイメージの位置に貼り付いていますので、ページ内のどの部分が検索でみつかったか,すぐわかります。 検索にヒットするかどうかはOCRの認識率に依存し、誤変換しているところは検索できませんが,よく出現するキーワードなどは検索できる確率が高くなります。
またこのテキストの文字は透明で通常見えないようになっていますので、誤変換があっても原文のイメージを表示していますので、見やすくなっています。

誤変換の訂正も可能

Pscan
は通常全く手作業を介することなく検索可能なテキスト付きPDFにすることができますが、同時に位置情報も含むOCR変換結果が,HTML CCS1のサブセット形式でテキストファイルで出力されます。
これを訂正し、再度統合することによって正しい検索が可能で、位置情報も正しいPDFファイルにすることができます。
(行単位で処理されるため,行をまたがるキーワードは検索可能にはできません)

PscanOCR サンプルPDF サンプルダウンロード 47KB

OCR(赤表示)

OCRテキストが張り付いているようすがわかりやすいように、特別にテキストを赤く表示させています。
 

 

 

サンプルダウンロード 47KB

OCR(透明)

通常は、OCRテキストを透明に貼り付けます。表示されているのはイメージです。 テキストは検索時などに利用できます。

 


カラー原稿もOCR処理可能。

 

 

新聞記事スクラップなど、縦書き・横書き混在の文書でもOCR認識可能です。

 


Page up

Hyper GEAR TOPProducts TOPお問合わせ
Copyright2004 HyperGEAR.Inc All Rights Reserved.