OCRが苦手とするもの
OCRとは、Optical Character Recognition 又は Optical Character Reader(光学的文字認識)のことで、手書きや印刷された文字をイメージスキャナなどによって読みとり、コンピュータが利用できる文字コードに変換するものです。
当社でもこれまで様々なOCRを利用してきました。
ただ、現状では残念ながらまだまだ実用には至らない部分も多いです。しかし、数字などは印刷物はもちろん手書きでもほぼ誤読がなくなってきています。
問題は漢字で、印刷物であってもなかなか期待通りに読み取ってはくれません。OCR専用帳票でも厳しいものがあります。
このため、通常は変換後に元の書類と画面上で見比べて修正していく作業が一般的に行われています。
ソフトウエアが認識が怪しい部分を表示してくれるので、手間は軽減されるのですが、当然のことながらそれだけで完璧に修正できるわけではありません。チェックをすり抜けた部分が数多く存在し、修正されないまま完了となってしまうのです。
こういった理由から、当社では変換後のデータをデータ入力専用機器に取り込んで、全件通常のベリファイを行うことで間違いをすべて修正してしまいます。
ここまでやっているところはあまりないのではないでしょうか?当然データ入力専用機器の入力用プログラム作成が必要になりますし、データの取り込みや入力作業の手間とコストがかかるわけです。
それでもお客様にとことん精度の高いデータをお届けしたいと、全社員が願って日々取り組んでいます。