日本語OCRの最高峰(?)技術を無料で利用する
日本語OCR(光学文字認識)とは新聞や雑誌などの日本語の文字を機械的に読み取ってPCなどで利用できるデータにすることです。この分野は音声認識と同様に難易度が高く認識率が決して高くない。ここでは無料で認識率が高いGoogleドライブを使用してのOCRをご紹介します。
1.Googleドライブにアクセスする
まずはGoogleドライブにアクセスします。googleのアカウントが無い方はメールアドレスなども無料で利用できますのでこの機会に作りましょう。(利用規約は必ず確認して下さい)
2.OCR処理の設定をする
ログインしたら右上にある歯車の設定アイコンをクリックします。そこで「アップロード設定」「アップロードしたPDFや画像ファイルからテキストに変換」にチェックマークを入れます。
3.画像ファイルをドラッグ&ドロップする
次はログインした画面に文字が入力された画像ファイルをドロップします。
4.アップロードされたファイルを選択する
後はアップロードされたファイルを選択するだけで自動的にOCRの処理が完了しています。
OCR - サンプル
下記はOCR用のサンプルの画像です。
OCR - サンプルのOCRの結果
下記はOCR処理後の画面です。
画面下部に抽出されたテキストが表示されています。実際の画面ではコピペも可能です。
まとめ
Googleドライブでは無料のOCR機能がある。GoogleはAndroidの音声認識だけではなく、文字認識にも力を入れているところを見ると、将来的にはAndroidをAndroid(ロボット)として販売しようとしているのかもしれませんね。今後のロボット工学が楽しみです^^