Mybestpro Members

柳井康伸プロは高知放送が厳正なる審査をした登録専門家です

現時点でのGoogleOCR+ChatGPTによるデータ読み取り処理の問題点と対策

柳井康伸

柳井康伸

テーマ:テクノロジー

何回か前の投稿で書きましたが、プロンプトを調節することで、ChatGPTによるデータの判別精度はかなり改善します。しかし、今実際にこの処理をしていて悩まされるのが「GoogleOCRの読み取りエラー」です。

私はいくつかの種類があるGoogleOCRの中でもDocumentOCRというタイプのプロセッサを使用しています。なぜこのタイプを使用しているかは以下の2点の理由からです。

1. ChatGPTとの相性が良かったこと
2. 価格がほぼ無償であること

このGoogleのDocumentOCRを使用することで、ほぼどんな画像やPDFからもテキストを取り出すことができ、ChatGPTとの組み合わせで様々な入力作業の改善が期待できます。しかし今現在(ここを強調しておきますが)、このOCRにも弱点があり、それは「小さなカタカナがうまく読めない」ということです。(注意:手書き文字は対象外です)

「小さな」とは文字通り印刷された文字が小さいことを意味します。例えば、請求書の備考欄に他の欄と比べて小さいフォントで書かれた文字が並んでおり、その中にカタカナが入っている場合があります。この時、数字や漢字、ひらがなはうまく読み取れますが、カタカナがうまく読み取れず、日本語の漢字ではない中国語の漢字のような文字として認識されてしまいます。(言い切るのは問題があるかもしれませんが、私の環境ではほぼ100%の確立で発生します)

具体的に「小さい」とはどのくらいの大きさかは言えませんが、結果を見て文字化けのような文字列が取得されている場合、元の文字列を見ると必ずこの「小さいカタカナ」であることがほぼ100%です。ChatGPTの処理はGoogleOCRの処理結果に対して実施されるので、ここで問題が起こると必ずChatGPTの結果もおかしくなります。

今のところ「小さいカタカナ問題」は読み取り結果全体に対して致命的なエラーではないので、この仕組みを使い続けていますが、この先もこの状態が続くのであれば、GoogleOCRに代わる(あるいは他のプロセッサ)を使ってPDFや画像中の文字列を取得する仕組みが必要とも考えています。

個人的にはテクノロジーの進化により、この問題も近い将来起こらなくなることを期待していますが…

現時点ではこの問題に対しては、「マスターテーブルや辞書の使用」でリスクやチェック作業時間の増大を回避しています。
例えば、請求書内の請求元の会社名、商品名やそのコードについてのマスターを持っておくことで、ChatGPTを適用した後でさらにマスターテーブルの内容を使って、必要情報を上書きすることで請求書の読み取り結果の精度を向上させます。
あるいは、よく発生する一定の法則性を持つ読み取りエラーの場合は、その正誤表を辞書として持ち、ChatGPT処理後に修正したりします。

残念ながら、今現在はOCR+ChatGPTの正確性は100%ではないので、このようにマスターテーブルを使って精度向上を図るのは仕方ないと思っています。

リンクをコピーしました

Mybestpro Members

柳井康伸
専門家

柳井康伸(ITコンサルタント)

Digi&Dev 合同会社

「ITで生産性を高めたいが社内に分かる人がいない、何度か試したけどうまくいかない、外部に頼むとお金がかかる割に……」というお悩みを抱える方に、広く知られたソフトウェアを使って業務効率化をご支援します。

柳井康伸プロは高知放送が厳正なる審査をした登録専門家です

関連するコラム

プロのおすすめするコラム

コラムテーマ

コラム一覧に戻る

プロのインタビューを読む

ITに関する豊富なノウハウをもとに業務効率化を支援するプロ

柳井康伸プロへの仕事の相談・依頼

仕事の相談・依頼