紙文書電子化の新しいコンセプト これまで、紙の文書を全文検索可能な電子ドキュメントにする場合には、日本語OCR等を使用してテキスト化する必要がありました。 しかし、 1)日本語OCRソフトを使うと誤認識が発生し、修正に時間と手間(コスト)がかかる。 2) ページレイアウトの情報が無くなるので、原本の再現性に欠ける。 等といった不満がありました。 これに対し、HG/PscanServ では、OCR により位置情報を持ったテキストデータを透明にして張りつけたPDF イメージを自動生成しますので、 全文検索が可能でかつ原本性を保持したイメージデータを簡単に作成することが出来ます。
監視ディレクトリの「リアルタイム監視方式」を追加 ・従来の「順次監視方式」に加えて、比較的規模が大きなネットワーク環境でも、サーバ負荷を軽減しPDF 変換を高速化する「リアルタイム監視方式」を、新たに搭載。環境にあわせて選択できます。 * インストールしたO/S がWindowsNT4.0/2000/XPである場合に限り監視先ディレクトリを設定するPCのOSに制限があります。 詳しくは、お問合せください。 変換元の階層構造を維持したままPDF変換、出力が可能 ・監視先ディレクトリ内の、全階層(無制限)の対象ファイルをテキスト付きPDF に変換できます。また、その際、階層構造を維持したまま、出力することが出来ます。 PDF変換対象ファイルをさらに拡張 ・JPEG 圧縮したマルチページTIFF(カラー/グレースケール)ファイル結合機能との組合わせで、モノクロ/ カラー混在のPDFファイルを生成することが可能です。 ・TIFF-FX(Lab)色再現性の高い高品位のカラーイメージPDF が作成できます。 ・Microsoft SharePoint Portal Server へのチェックインと公開に対応し、連携が簡単に実現できます。 詳細はこちら 監視ディレクトリを機能強化(図1) ・PDF を生成する「監視ディレクトリ」は、サブディレクトリを含めネットワーク上に無制限に設定できます。 ・各々の監視ディレクトリのジョブ名を、自由に設定できますので作業内容の管理が容易になります。 出力先ディレクトリ自動作成機能 ・監視ディレクトリとして設定されたサブディレクトリと同一名称のディレクトリを自動作成して、変換後のPDF ファイルを保存することができます。 柔軟なファイル名自動設定機能 ・生成されたファイル名の設定は「変換元ファイル名」の他、「自動連番」「変換日時」等が選択できます。また、OCR により取得したテキストデータの指定行から、任意の文字をファイル名とする事も出来ます。
高機能OCR によるテキスト埋め込み機能 ・OCRにて抽出したテキストを、元原稿と同じ文字位置に透明にPDFに貼り付けます。このテキストデータをもとに全文検索が 可能になります。(* カラー、モノクロともA3 まで対象) ・従来の「日本語」「英語」モードに加え、「自動認識モード」を追加しました。同一ページ内で、日本語と英語の段組が混在する原稿でOCR 精度の向上が図れます。 ・ページ内にOCR処理を行う認識エリアを指定できます。伝票番号や図面の図枠内のみ認識する等の設定が可能です。 ・認識対象とする文字種の指定が可能です。これにより、例えば価格表やパーツリスト等で、英字、数字に限定する事で認識精度を向上させる事ができます。 ・PDF 生成時に、OCR 処理を実行するページを任意に指定できます。これにより、ファイル中の全ページをOCR 処理する必要がなく、トータルの変換処理時間を大幅に削減できます。 ・OCR 抽出されたテキストデータは、PDF に埋め込む他、テキストファイルとして出力することも可能です。
誤認識のあるテキスト付PDF ↓ 位置情報を含めNetscape Communicator で表示・修正可能
PDF に埋め込まれたテキストデータは、XHTML(XML)ファイルでの出力ができますのでNetscapeCommunicator(ver.4.7 以降)で修正して、PDF に再合成する事ができます。 * Netscape Communicator(ver.4.7 以降)は無償で入手できます。なお、弊社のWEBサイト(http;//www.hypergear.com)からもダウンロードサイトへリンクできます。
画像自動補正機能を強化 ・「画像自動正立機能」を新たに搭載し、縦方向、横方向の原稿が混在した原稿も、自動的に用紙方向を修正してテキスト付PDFを生成しますので、効率的な作業ができます。 ・「画像傾き補正機能」の搭載により、傾きのある画像データからも精度の高いテキストデータ付PDFの作成が可能です。 画像解像度指定機能 ・任意の画像解像度を指定して、PDF 変換することができます。これにより、解像度情報をもたないなどの、不完全なファイルの修復も可能です。 ・OCR 処理後の画像データサイズを、元画像の25%,50% へ解像度を間引きして保存することも出来ます、これにより400dpi等の高解像度でスキャンしたカラーデータも、OCR の認識精度を低下させることなくコンパクトなファイルサイズで保存できます。
各種詳細設定画面
PDF 変換機能を強化 ・同一監視ディレクトリに、複数のファイルタイプ(*.tif、 *.jpg 等)を変換対象として設定できます。またそれらのファイルをPDF 変換時にファイル結合することができます。機能UPこれにより、カラーページとモノクロページを含むドキュメントを1つのPDF に一括生成でき、しかも全てのページを対象に全文検索を行う等の運用が可能になります。 ・直ちに変換可能な「変換実行」ボタンを装備した事により、あらかじめ用意した大量の画像データを、必要な時にバッチ的に処理してテキスト付PDFを生成することもできます。 ファイル自動分割機能 ・あらかじめセパレータ(仕切紙)を差込んでスキャンしたファイルを自動分割して複数のPDFを生成する事が出来ます。セパレータにキーとなる文字やバーコードを印字しておく事で、印字した文字やバーコードを認識してファイル名や文書情報のタイトルとして取込む事も可能です。 ・白紙用紙を、セパレータとして利用する機能を追加。
その他 ・用紙サイズの混在に対応 ・HG/PscanServ ver.2.8 を、Windows のスタートアップに登録しておく事により、PC の起動時の自動実行が可能。 ・処理中の実行ログや処理結果のログファイルを詳細に表示する 事が可能。 ・PDF のほか、TIFF ファイルの出力も可能。 動作環境 ・ハードウエア:IBM DOS/V 互換機 ・CPU:Pentium V 500MHz 以上推奨 ・RAM:128MB 以上推奨(カラーの場合256MB 以上) ・DISC:システムとして30MB、ワークエリアとして100MB 以上推奨 ・O/S:Windows98/2000/NT4.0SP3.0 以上/XP(Windows95 はサポートされていません)
PDF 変換時にOCR でしおりタイトル自動抽出
PDF の付加価値を高めるユーティリティオプション群 しおり自動設定、抽出機能を搭載 ・しおりのページ番号、階層、タイトルをMS-Excel やエディタ等で作成し、あらかじめCSV形式で保存しておくだけで、PDF生成時にしおりが設定できます。 ・OCRにより抽出された文字列をしおりのタイトルとして自動挿入する事も可能です。 ・しおりのタイトルをテキストデータとして、PDFの対象ページに埋め込むことができます。これにより、しおりタイトルを全文検索対象とする事ができます。 ・PDF にあらかじめ設定されているしおりデータを、CSVファイルとして抽出し、MS-Excelやエディタ等で修正、編集してから、再合成することも出来ます。 ページ表示設定機能 ・紙文書や画像データ等、多様なデータソースから生成されたPDF の文書情報や、オープン表示設定等の統一を図るのは大変手間のかかる作業ですが、これらを自動的に設定する「ページ表示設定機能」を搭載しています。また、この他、電子文書として出版するのに有効なヘッタやフッタの設定、ノンブル(ページ番号)の自動設定、ウォータマーク等の設定も、PDF生成と同時に行う事ができます。 有効期限設定機能 ・PDFファイルに、自動的にJavaScriptプログラムを埋め込むことにより、PCの日付情報をチェックして、PDFファイルの開閉情報を制限する「有効期限設定」を、PDF生成と同時に行うことが出来ます。 ・有効期限が設定されたPDFは、設定された期限後にオープンしようとすると警告ダイアログを表示したり、ページを非表示にしたりする事ができます。 ・また、日付による制限の他、「設定されているURLからのみ閲覧可能」とし、ユーザーがPCにダウンロードして閲覧することを制限する等の設定も可能です。
・対応用紙サイズ 2A0 まで(カラーはA3 まで) 変換元対象イメージフォーマット ・TIFF モノクロ:非圧縮、G4/G3 圧縮(シングル/ マルチページ) カラー :非圧縮、PackBit 圧縮、JPEG 圧縮(24 ビット)、 TIFF-FX(Lab) (シングル/ マルチページ) グレースケール:非圧縮、JPEG 圧縮(8 ビット) 注 ) LZW 圧縮には対応しておりません ・JPEG ベースライン(24 ビットカラー、8 ビットグレー) ・XDW,XBD(DocuWorks フォーマット) 注 ) 別途富士ゼロックス製ソフト「DocuWorks 」が必要です ・エプソンサーバスキャンフォーマット ・PDF :G4 圧縮/JPEG