2019年11月24日

png とか pdf とかのファイルの文字を抽出するというのかなんというのか

Pythonの解説記事があるサイト
http://ishidate.my.coocan.jp/vpy_9/vpy_9.htm
このサイトではプログラムは画像になっていてコピペですいすいと試す事ができないので写経していた。だが、文字認識アプリ、ツールを使えばいいんじゃね?  とさっき閃いた次第である。
画像は次のようなものだ。

これを写経するの・・・・質めんどい。やーーめたっと(笑) と思った次第であるがフリーの文字認識のツールを使えばどーよ・・・だよね。
探したがフリーでは高機能というか精度良いものはないのでは? 有料のものは試す事もできず。
そして、Googleだ。pdfをGoogle Driveにuploadすればいいらしい。WebのGoogle DriveでそれをGoogleドキュメントとして開くと文字に変換するらしい。で、やってみた。
あかん。画像はpngである。それをpdfに変換するのにLibreOfficeでやってみたり。IrfanViewでも機能としてあるなあ。
pdfにしないといかんと思い込んでしまったのだった。

だが、よく考えると、なんでpdfにしてからup loadするのか、おまいは?   png のファイルをuploadすればいいではないか、バカタレ!!
  で、png FileをアップしてGoogleドキュメントで開いたら次のような結果になった次第である。

image

これはWeb上の表示であり、Textである。コピペして秀丸で修正して使えばよい。ここではコピペできないように画像の貼り付けをした。(笑)

これ見ると、だいぶ実用になる気がしてきた。誤変換は自分で修正すればいい。ここらの数字を書き写すって面倒ですがな。この作戦でやったみようずら。

画像はpngとしてファイルに落とし、それをGoogle DriveにアップしてGoogleドキュメントとして開く。
PDFにしてからアップして・・・とやると誤変換ばかりであった。なんでか?  知らんわい。

Google Driveってちょ~好き!!  「Googleバックアップと同期」という名称になっているようだけど。

蛇足というか結果というか、テキトー
やってみて実用にならんでした(笑) 改行の処理に加え誤変換の修正。ただ誤変換等はVScodeで変数がエラーになるとか出るから修正は可能。Python特有のインデントが全部消えとるのでここらはVScodeで修正するしかないのだが、
写経するほうが、かなり速い!! 
  というわけで、この作戦は放棄だが、Google DriveにOCRの機能があるという事は知っておいて損はない。得もないだろう(笑)

posted by toinohni at 09:03| 東京 🌁| Comment(0) | ソフト系雑学 | このブログの読者になる | 更新情報をチェックする