tesseract-ocrは、パスを環境変数として登録しておく(登録後はPCを再起動する)。
pyocrは、C:\ProgramData\Anaconda3\Lib\site-packages\pyocr\tesseract.pyファイルを下のように変更しておく。
from: return "--psm" if version[0] > 3 else "-psm"
to: return "--psm" if version[0] > 3 else "--psm"
#import sys #sys.path.append("C:\\ProgramData\\Anaconda3\\lib\\site-packages") import pyocr import pyocr.builders from PIL import Image import matplotlib.pyplot as plt img = Image.open('H:\\img\\test.jpg') # OCRにかける画像をPILで取得して、 tools = pyocr.get_available_tools() # 利用可能なOCRツール(ここではtesseract-ocr)を取得して、 txt = tools[0].image_to_string(img, # テキストデータに変換する。 lang="jpn", builder=pyocr.builders.TextBuilder()) print(txt) plt.imshow(img) plt.show()
実行結果(変換結果と元画像):