AIよ。光学文字認識(OCR)は早とちりするな。

隠遁Chemistと愛(AI)の交換日記

私は古い化学の(特に溶解関係の)書籍を読むのが好きで古本屋巡りをしては集めた。高分子や化学情報、データ集、HandBookも集めた。家に置く場所もないので泣く泣く自炊して処分した。HDの肥溜めを見ると、大体1000.pdfぐらいある。

当時(-2019あたり)では、AcrobatでOCRするしかなかった。
HDに検索がかけられるので、重宝している。

最近、生成AIを使ってOCRをかけると、OCRした上で文章として認識しようとする。そこで手書き文字列でも、文字として認識した羅列を意味を考えて修正する。手書き文字認識がとても改良された。

ところが(早とちりした)意味を答えに変えてしまうことが頻繁に起こる。

例えば、最初のPolytrifluoroethyleneはちゃんとOCRできている。ところが、PolytetrafluoroethyleneをPolytrifluoroethyleneと間違ってしまう。

人間はそんな事が良く起きることは十分認識している。
手作業でExcelにこうしたものを打ち込んでいくと、Polytまで打ち込むと、その前の打ち込んだPolytrifluoroethyleneでは無いかと候補表示される。余計なお世話機能に苦しめられてきたからだ。

Excelの場合、Polytの後にeを打ち込めば候補は消える。

ところが生成AIは賢すぎる。ポリマーの名称の全体の感じで、前に出てきた名称と思ってしまう。
この問題は根深い。PolytetrafluoroethyleneをPolytrifluoroethyleneと認識されてしまうと、Polytrifluoroethylene自体がポリマーとして存在するので、OCRが間違ったことを人間が認識できなくなってしまう。Polytelrafluoroethyleneならそんなポリマーは無いのですぐに分かるのに。

この結果を使ってリレーショナル・データベースからポリマーの物性推算式をMIする。
普通にこういう事すると、とんでもない所にリンクされてしまう。
何故精度が出ないのか、ブラックボックスになってしまってわからない。
今回140ポリマーをOCRすると10%ぐらい問題があった。
まー、ポリマーの名称を140個手打ちするのは、もういやだ。でも昔はやった。だからへんな事がわかる。最初からAIしか使ったことない人間は困るだろう。プロンプトをどうしたらよいかもわからないだろう。AIの方からそっと人間に寄り添ってあげよう。「このテーブルの名称は同じものは無いでしょうか?」って聞いてあげるとか。

人間のボケ防止用? 人間にも仕事を残してあげようという温かい配慮?
結構スリリングで逆に楽しい。
化学を知っている者のほうが生成AIのOCRをより上手に使いこなせる。
プロンプトで愛の交換日記すれば。