ホームFAQメイン| OCR/検索

2008年04月09日

OCR処理時間について

非常に多くの黒点が存在する画像において、OCR処理時間が
長くかかっていた問題を下記パッチにて修正致しました。
下のパッチ適用方法を御確認頂き御適用下さい。

適用対象バージョン:PscanServPlus/Pro 4.0以上

【ダウンロード・セットアップ方法】
 こちらからダウンロードして下さい。 
 >>> [MdRcgE50パッチ] 
  
【パッチ適用方法】
1.PscanServの監視を停止してください。
2.PscanServを終了させてください。
3.ダウンロードしたパッチを解凍し、PscanServ のインストールフォルダ
 (デフォルト C:\Program Files\PscanServ\MDTOCR)にコピーし、
 既存のファイルを上書きする形で更新してください。

投稿者 hypergear : 14:40

2006年03月15日

Windowsエクスプローラの検索にヒットしない

1. OCRの詳細設定画面で「Windows検索用テキストを埋めこむ」がチェックされていますか?
2. セキュリティはかかっていませんか?
 セキュリティのかけられたPDFは文書が暗号化されるため、検索できません。
3. レジストリの更新スクリプトは実行されていますか?(WindowsXP, 2003のみ)
 PscanServインストールフォルダにある、pdfsearch.regを検索を行う各クライアントで実行し、
 コンピュータを再起動してください。

投稿者 hypergear : 14:21

部分OCR結果がCSVに出力されない

1. 「CSVファイル設定」にて「CSVファイルに出力する」にチェックが入っていますか?
2. 認識エリア設定画面で「OCR実行」ボタンを押してください。認識結果が正しく表示されますか?
3. 認識エリア設定画面で、CSVへの出力を行うエリアを選択したとき、「CSVファイルに出力する」に
 チェックが入っていますか?

投稿者 hypergear : 14:20

OCRエリア設定のプレビュー画面に表示できない

プレビューができるのは、TIFF(G4), とJPEGのみになります。
その他のPDF等のファイル形式はプレビューできません。

投稿者 hypergear : 14:19

オフィス文書にOCRをかけたい

オフィス文書にはOCRをかけません。オフィス文書をPDFに変換した場合、オフィス文書中の文字
(たとえばWORDの文字)は、PDFの検索できる文字に変換されるので、OCRをかける必要がないためです。
従いまして、OCRという処理は行いませんが、オフィス文書も検索できるPDFに変換されます。

投稿者 hypergear : 14:18

Windows検索用テキストがないPDFをWindowsで検索したい

OCRテキスト付のPDFは、Acrobatでの検索Windowsのインデックスサービスその他文書管理ソフトなど、
通常のテキスト付PDFファイルを検索できる方法であれば、どのような方法でも全文検索することができます。
Windows検索用テキスト機能は、これらの検索に加え、PDFのようなバイナリデータを検索できない
エクスプローラでも検索できるようにするものです。

投稿者 hypergear : 14:17

Windows検索用テキスト付のPDFについて知りたい

Windowsエクスプローラの検索機能を使用して、検索できるPDFです。通常Windowsの
エクスプローラでは、PDFなどのオフィス文書以外のバイナリデータを検索することはできませんが、
Windows検索用テキスト付きのPDFであればエクスプローラでも簡単に検索できます。

※検索を行う各クライアントで、レジストリの更新が必要です。

投稿者 hypergear : 14:17

どのようなデータにOCRがかかるかを知りたい

画像データです。TIFF, JPEG, およびスキャナから取り込んで作成されたPDF, XDWです。
アプリケーションファイルや、LZW, JBIG(※)など対応していない圧縮形式の画像にはかかりません。

※Acrobat6.0以上を使用して、スキャナから取り込んだ場合、設定によっては作成される場合があります。
その場合、次の点を設定します。
 Acrobat6.0:「コンテンツに合わせた圧縮」をオフにします。
 Acrobat7.0:モノクロ画像の圧縮形式をG4にします。

※PDFにはWORD等のアプリケーションファイルから作成されたものなど、多様な形式がありますが、
スキャニングによる画像のPDFであるかどうか確認することが難しい場合もあります。OCR処理等の
画像処理がお目的の場合、TIFF等の画像でスキャンすることをご検討いただいた方が、運用上の問題
が軽減されるケースがございます。

投稿者 hypergear : 14:16

OCRの認識結果をテキストファイルに出力したい

認識結果をテキストファイル(.TXT)や、HTMLファイルに出力することができます。テキストファイルには
認識結果の文字列が、HTMLファイルには位置情報をもった認識結果の文字列が出力されます。
従いましてこのHTMLファイルを開きますと、変換対象の原稿とほぼ同じレイアウトで表示されます。

投稿者 hypergear : 14:16

全角空白文字が字間に入り検索できない

誤認識パターン辞書機能を使用し、全角空白文字を削除します。

[設定方法]
 誤認識文字に全角空白を入れます。訂正文字には何も入力せず、登録ボタンを押して設定します。

投稿者 hypergear : 14:15

OCRテキストを校正したい(Netscape7.0使用)

HTMLの編集のみ(Acrobat不要)な校正方法です。
1.PscanServでOCR結果をHTML形式に出力します。
2.HTMLをNetscape7.0以上で校正します。
3.PscanServで校正後のHTMLと変換元原稿を再合成します。
 ※【重要】 Netscapeの設定で、「元のHTMLソースをそのまま維持する」を選択します。
  「再フォーマットする」にすると、正しく合成できません。HTMLの定義は広汎にわたりますので
  PscanServの作成するHTML形式のみに対応しております。同じ理由で、ホームページ
  作成ソフト等でHTMLを校正することはできません。

投稿者 hypergear : 14:14

OCRテキストを校正したい(Acrobat6.0以上使用)

Acrobat6.0以上を使用すると、次のような方法で簡単にテキストを校正することができます。

1.下記を設定し、OCRをかけます。
 ・OCR処理
 ・レイヤーテキスト
 ・文字色:黒
 ・認識信頼度が低い文字:赤

2.Acrobat6.0以上でファイルを開きます。
 (Adobe Readerでは編集できません。また、可能であればAcrobat7.0以上をご選択ください。
 どちらでも同様の校正ができますが、7.0の方が、テキストを選択する場合の操作性が良いためです。)

3.ウィンドウの分割機能(ウィンドウメニュー>分割)機能を利用してウィンドウを2つに分割し、
 一方に文書のレイヤーを、もう一方にOCRテキストのレイヤーを表示させます。

4.3の画面で見比べながら、タッチアップテキストツールで誤認識部分を校正します。
 (誤認識である可能性が高い部分が赤文字で表示されますので、赤文字部分を中心にチェックします)

5.修正後のPDFがレイヤーなしである方が良い場合、下記を設定しPscanServで再変換します。
 ※この項目を実行しなくても検索には影響を与えません。
 ・OCR処理のチェックを外します。
 ・レイヤーの設定を解除します。
 ・埋め込まれたOCR認識文字の色をすべて透明にするを選択します

投稿者 hypergear : 14:14

どのような方法で検索できるかを知りたい

Acrobatを使用しての検索の他、Windowsのインデックスサービスや、その他文書管理ソフトなど、
通常のテキスト付PDFファイルを検索できる方法であればどのような方法でも、全文検索することができます。

投稿者 hypergear : 14:13

認識精度を上げたい

通常の綺麗な状態の原稿であれば、多くの場合高いOCR結果が得られますが、CR処理の性質上、
原稿によりましては認識精度が悪い場合も考えられます。そのような場合、次の項目などをご参考
いただき、設定を調整してください。

1.なるべく原稿にあった設定を行います。
 原稿方向・認識言語は、自動認識させることも可能ですが混在しない原稿が対象の場合、
 明示的に横書き/縦書きあるいは日本語/英語を選択します。

2.可能な限り綺麗な状態で画像を作成してください。
 高性能なOCRエンジンを使用しておりますので、およそ200DPIくらいの原稿でも、比較的高い
 認識を行うことができますが、解像度を上げるなど、可能な限り綺麗な状態で原稿を作成してしてください。
 FAX原稿のように、すでに文字がつぶれてしまっている場合などは、解像度を上げても効果が小さい
 可能性もあります。

3.「原稿方向」の設定を変えてみてください。
 「横書き」の設定よりも「横書き(一段組)」、「縦書き」の設定よりも「縦書き(一段組)」の設定で
 精度があがるかどうか、お試し下さい。

4.パターン辞書を活用します。
 例えば、「日本」を「目本」と認識してしまう場合など、決まったパターンで誤認識されるケースは、
 パターン辞書に登録することで回避できます。
 ※全て登録したパターンで置換されますので、「日」を「目」に変換するように登録しますと、
 「日曜日」という語も「目曜目」に変換されてしまいますので、ご注意ください。

投稿者 hypergear : 14:12

2006年03月14日

OCR精度について知りたい

通常OCRの精度は、OCRエンジンと原稿の品質によって大きく決定されます。 精度の良いOCRエンジンと品質の良い原稿でOCRをかけた場合、 OCRの認識精度を90%以上に高めることができますが、100%は達成されて おらず、修正を行なう必要があります。


投稿者 hypergear : 17:33

2006年03月09日

ゾーンOCR(エリアOCR)について知りたい

特定の領域だけOCRをかけて文字情報を抽出する技術です。用途としては、伝票やFAX、アンケートなどのヘッダ部分や 特定の意味を持つ情報の領域をスキャンして その文字列をファイル名にして以後の処理をおこなうなど、 文書処理の自動化が図れます。


投稿者 hypergear : 16:50