2008年04月09日
OCR処理時間について
非常に多くの黒点が存在する画像において、OCR処理時間が
長くかかっていた問題を下記パッチにて修正致しました。
下のパッチ適用方法を御確認頂き御適用下さい。
適用対象バージョン:PscanServPlus/Pro 4.0以上
【ダウンロード・セットアップ方法】
こちらからダウンロードして下さい。
>>> [MdRcgE50パッチ]
【パッチ適用方法】
1.PscanServの監視を停止してください。
2.PscanServを終了させてください。
3.ダウンロードしたパッチを解凍し、PscanServ のインストールフォルダ
(デフォルト C:\Program Files\PscanServ\MDTOCR)にコピーし、
既存のファイルを上書きする形で更新してください。
投稿者 hypergear : 14:40
2006年03月15日
Windowsエクスプローラの検索にヒットしない
1. OCRの詳細設定画面で「Windows検索用テキストを埋めこむ」がチェックされていますか?
2. セキュリティはかかっていませんか?
セキュリティのかけられたPDFは文書が暗号化されるため、検索できません。
3. レジストリの更新スクリプトは実行されていますか?(WindowsXP, 2003のみ)
PscanServインストールフォルダにある、pdfsearch.regを検索を行う各クライアントで実行し、
コンピュータを再起動してください。
投稿者 hypergear : 14:21
部分OCR結果がCSVに出力されない
1. 「CSVファイル設定」にて「CSVファイルに出力する」にチェックが入っていますか?
2. 認識エリア設定画面で「OCR実行」ボタンを押してください。認識結果が正しく表示されますか?
3. 認識エリア設定画面で、CSVへの出力を行うエリアを選択したとき、「CSVファイルに出力する」に
チェックが入っていますか?
投稿者 hypergear : 14:20
OCRエリア設定のプレビュー画面に表示できない
プレビューができるのは、TIFF(G4), とJPEGのみになります。
その他のPDF等のファイル形式はプレビューできません。
投稿者 hypergear : 14:19
オフィス文書にOCRをかけたい
オフィス文書にはOCRをかけません。オフィス文書をPDFに変換した場合、オフィス文書中の文字
(たとえばWORDの文字)は、PDFの検索できる文字に変換されるので、OCRをかける必要がないためです。
従いまして、OCRという処理は行いませんが、オフィス文書も検索できるPDFに変換されます。
投稿者 hypergear : 14:18
Windows検索用テキストがないPDFをWindowsで検索したい
OCRテキスト付のPDFは、Acrobatでの検索Windowsのインデックスサービスその他文書管理ソフトなど、
通常のテキスト付PDFファイルを検索できる方法であれば、どのような方法でも全文検索することができます。
Windows検索用テキスト機能は、これらの検索に加え、PDFのようなバイナリデータを検索できない
エクスプローラでも検索できるようにするものです。
投稿者 hypergear : 14:17
Windows検索用テキスト付のPDFについて知りたい
Windowsエクスプローラの検索機能を使用して、検索できるPDFです。通常Windowsの
エクスプローラでは、PDFなどのオフィス文書以外のバイナリデータを検索することはできませんが、
Windows検索用テキスト付きのPDFであればエクスプローラでも簡単に検索できます。
※検索を行う各クライアントで、レジストリの更新が必要です。
投稿者 hypergear : 14:17
どのようなデータにOCRがかかるかを知りたい
画像データです。TIFF, JPEG, およびスキャナから取り込んで作成されたPDF, XDWです。
アプリケーションファイルや、LZW, JBIG(※)など対応していない圧縮形式の画像にはかかりません。
※Acrobat6.0以上を使用して、スキャナから取り込んだ場合、設定によっては作成される場合があります。
その場合、次の点を設定します。
Acrobat6.0:「コンテンツに合わせた圧縮」をオフにします。
Acrobat7.0:モノクロ画像の圧縮形式をG4にします。
※PDFにはWORD等のアプリケーションファイルから作成されたものなど、多様な形式がありますが、
スキャニングによる画像のPDFであるかどうか確認することが難しい場合もあります。OCR処理等の
画像処理がお目的の場合、TIFF等の画像でスキャンすることをご検討いただいた方が、運用上の問題
が軽減されるケースがございます。
投稿者 hypergear : 14:16
OCRの認識結果をテキストファイルに出力したい
認識結果をテキストファイル(.TXT)や、HTMLファイルに出力することができます。テキストファイルには
認識結果の文字列が、HTMLファイルには位置情報をもった認識結果の文字列が出力されます。
従いましてこのHTMLファイルを開きますと、変換対象の原稿とほぼ同じレイアウトで表示されます。
投稿者 hypergear : 14:16
全角空白文字が字間に入り検索できない
誤認識パターン辞書機能を使用し、全角空白文字を削除します。
[設定方法]
誤認識文字に全角空白を入れます。訂正文字には何も入力せず、登録ボタンを押して設定します。
投稿者 hypergear : 14:15
OCRテキストを校正したい(Netscape7.0使用)
HTMLの編集のみ(Acrobat不要)な校正方法です。
1.PscanServでOCR結果をHTML形式に出力します。
2.HTMLをNetscape7.0以上で校正します。
3.PscanServで校正後のHTMLと変換元原稿を再合成します。
※【重要】 Netscapeの設定で、「元のHTMLソースをそのまま維持する」を選択します。
「再フォーマットする」にすると、正しく合成できません。HTMLの定義は広汎にわたりますので
PscanServの作成するHTML形式のみに対応しております。同じ理由で、ホームページ
作成ソフト等でHTMLを校正することはできません。
投稿者 hypergear : 14:14
OCRテキストを校正したい(Acrobat6.0以上使用)
Acrobat6.0以上を使用すると、次のような方法で簡単にテキストを校正することができます。
1.下記を設定し、OCRをかけます。
・OCR処理
・レイヤーテキスト
・文字色:黒
・認識信頼度が低い文字:赤
2.Acrobat6.0以上でファイルを開きます。
(Adobe Readerでは編集できません。また、可能であればAcrobat7.0以上をご選択ください。
どちらでも同様の校正ができますが、7.0の方が、テキストを選択する場合の操作性が良いためです。)
3.ウィンドウの分割機能(ウィンドウメニュー>分割)機能を利用してウィンドウを2つに分割し、
一方に文書のレイヤーを、もう一方にOCRテキストのレイヤーを表示させます。
4.3の画面で見比べながら、タッチアップテキストツールで誤認識部分を校正します。
(誤認識である可能性が高い部分が赤文字で表示されますので、赤文字部分を中心にチェックします)
5.修正後のPDFがレイヤーなしである方が良い場合、下記を設定しPscanServで再変換します。
※この項目を実行しなくても検索には影響を与えません。
・OCR処理のチェックを外します。
・レイヤーの設定を解除します。
・埋め込まれたOCR認識文字の色をすべて透明にするを選択します
投稿者 hypergear : 14:14
どのような方法で検索できるかを知りたい
Acrobatを使用しての検索の他、Windowsのインデックスサービスや、その他文書管理ソフトなど、
通常のテキスト付PDFファイルを検索できる方法であればどのような方法でも、全文検索することができます。
投稿者 hypergear : 14:13
認識精度を上げたい
通常の綺麗な状態の原稿であれば、多くの場合高いOCR結果が得られますが、CR処理の性質上、
原稿によりましては認識精度が悪い場合も考えられます。そのような場合、次の項目などをご参考
いただき、設定を調整してください。
1.なるべく原稿にあった設定を行います。
原稿方向・認識言語は、自動認識させることも可能ですが混在しない原稿が対象の場合、
明示的に横書き/縦書きあるいは日本語/英語を選択します。
2.可能な限り綺麗な状態で画像を作成してください。
高性能なOCRエンジンを使用しておりますので、およそ200DPIくらいの原稿でも、比較的高い
認識を行うことができますが、解像度を上げるなど、可能な限り綺麗な状態で原稿を作成してしてください。
FAX原稿のように、すでに文字がつぶれてしまっている場合などは、解像度を上げても効果が小さい
可能性もあります。
3.「原稿方向」の設定を変えてみてください。
「横書き」の設定よりも「横書き(一段組)」、「縦書き」の設定よりも「縦書き(一段組)」の設定で
精度があがるかどうか、お試し下さい。
4.パターン辞書を活用します。
例えば、「日本」を「目本」と認識してしまう場合など、決まったパターンで誤認識されるケースは、
パターン辞書に登録することで回避できます。
※全て登録したパターンで置換されますので、「日」を「目」に変換するように登録しますと、
「日曜日」という語も「目曜目」に変換されてしまいますので、ご注意ください。
投稿者 hypergear : 14:12
2006年03月14日
OCR精度について知りたい
通常OCRの精度は、OCRエンジンと原稿の品質によって大きく決定されます。 精度の良いOCRエンジンと品質の良い原稿でOCRをかけた場合、 OCRの認識精度を90%以上に高めることができますが、100%は達成されて おらず、修正を行なう必要があります。
投稿者 hypergear : 17:33
2006年03月09日
ゾーンOCR(エリアOCR)について知りたい
特定の領域だけOCRをかけて文字情報を抽出する技術です。用途としては、伝票やFAX、アンケートなどのヘッダ部分や 特定の意味を持つ情報の領域をスキャンして その文字列をファイル名にして以後の処理をおこなうなど、 文書処理の自動化が図れます。
投稿者 hypergear : 16:50