Python / OCR処理 / pyocr、tesseract-ocr

tesseract-ocrは、パスを環境変数として登録しておく(登録後はPCを再起動する)。
pyocrは、C:\ProgramData\Anaconda3\Lib\site-packages\pyocr\tesseract.pyファイルを下のように変更しておく。

from: return "--psm" if version[0] > 3 else "-psm"
to: return "--psm" if version[0] > 3 else "--psm"  

#import sys
#sys.path.append("C:\\ProgramData\\Anaconda3\\lib\\site-packages")

import pyocr
import pyocr.builders

from PIL import Image

import matplotlib.pyplot as plt

img   = Image.open('H:\\img\\test.jpg') # OCRにかける画像をPILで取得して、
tools = pyocr.get_available_tools()     # 利用可能なOCRツール(ここではtesseract-ocr)を取得して、
txt   = tools[0].image_to_string(img,   # テキストデータに変換する。
                                 lang="jpn",
                                 builder=pyocr.builders.TextBuilder())
print(txt)

plt.imshow(img)
plt.show()

実行結果(変換結果と元画像):
f:id:ti-nspire:20180917090740p:plain:h500