OCR

結構な量のテキストデータを入力せねばならなかったので、スキャナ付属のOCRを試す。試すとはいっても昔実家で使っていたものと基本的には一緒なので、性能をテストしようというわけではない。ただ、仕事に使うにあたって手間の軽減となるかどうか、ワークフローを意識してみた。


網掛けを含むデータなのでその部分の認識率が著しく低下するものの、それ以外では非常に良好な結果が得られた。但し、結果として得られたテキストの並び順は使い易いものとは言えない。
表を単純に横方向に読み進めた形で、読解の形としては正しいが、今回欲しかったのは項目ごとに纏まったテキスト、即ち縦方向に読み進めたものである。
取り敢えずテキストエディターに結果を移し、正規表現で適当に置き換えて使う。


文字の認識が100%とは言えないのでチェックと多少の打ち直しは止む無いところだろうが、手で打つのと比べ入力時間は半分以下、入力の精度も恐らくOCRが上だろう*1
それにしても昨今のOCRの文字認識精度は驚くばかりである。以前係長が「認識ミスばかりで使い物にならん」と大層立腹の様子であったが、一体どんな操作をしたものだか。

*1:私はこういう単純作業では極めてミスが多い