« 「物体検出やぶり」な模様が考案!?「デジタル迷彩」の動画 | トップページ | 旧式のルーターはご用心! »

2019年5月16日 (木)

GoogleドライブのOCR機能で”Python”のコードを読ませてみた

最近、自宅で作ったコードを会社に送るということが多いです。

一方で、会社で改良したり、あるいは作ったpythonコードを家に送りたくなった時などがあるんですが、自宅にメール送信はご法度な会社なので、文字で印刷して家で打ち込む、というのをよくやっておりました。

が、さすがにめんどくさい。

そこで、なんとか手軽にOCRを使えないかと模索していたんですが。

「Googleドライブを使うと楽」という話を聞きつけて、早速試してみました。

下準備ですが、まず読み込みたい紙のファイルを、あらかじめ複合機やドキュメントスキャナーなどでPDF化 or 画像化しておきます。

そのうえで、Googleドライブに転送します。

あ、Googleドライブの使い方は以下を参照。

 Google ドライブ

私はPCからGoogleドライブにファイルを共有できるようにしております。

で、

Google_ocr01_1

「Google ドキュメント」を選びます。

しばらく時間がかかりますが、自動的にOCRが働いて、ファイルを開いてくれます。

Google_ocr02

・・・が、やはりプログラムというやつは苦手なようで、改行位置がめちゃくちゃです。文字の協調や、おかしなタイトルを挿入されたりします。

仕方がないので

Google_ocr04

一旦、テキストファイルで吐き出して

Google_ocr05

改行しなおし + 一部の読み取りミスを修正 です。

結構困ったのは、括弧の前とピリオドの後に、勝手にスペースが入ること。

英文的にはそれでいいですが、python的には困ることでもあります。修正が大変でした。

Google_ocr03

まあそれでも、最初から手打ちするよりははるかに楽でした。

ちなみにこのコード、会社では需要があるんですが、自宅ではほとんど需要のないコードなんです。

ディープラーニングで、時系列を扱う手法として「LSTM」というものがあります。

あれと、その簡易版ともいうべき「GRU」のコードをネットのコードを参考に作ったんですが。

家でも試したくなって、こういう手段を取った、という次第です。

もし、紙の文章がたくさんあって、Google OCRで読めるレベルのものだったら、こういう方法で変換することができるということで。

富士通 PFU ドキュメントスキャナー ScanSnap iX1500 (両面読取/ADF/4.3インチタッチパネル/Wi-Fi対応)

« 「物体検出やぶり」な模様が考案!?「デジタル迷彩」の動画 | トップページ | 旧式のルーターはご用心! »

パソコン系」カテゴリの記事

コメント

コメントを書く

(ウェブ上には掲載しません)

« 「物体検出やぶり」な模様が考案!?「デジタル迷彩」の動画 | トップページ | 旧式のルーターはご用心! »

当ブログ内検索

  • カスタム検索

スポンサード リンク

ブログ村

無料ブログはココログ