下载地址:https://digi.bib.uni-mannheim.de/tesseract/

双击安装程序,进入安装界面。

接受协议,下一步。

选择用户

选择组件
如果电脑配置够好、网速够快,可以之间勾选”Additional language data(download)“,下载全部额外的语言数据。

直接全选的话,后面下载语言包需要很长时间,导致安装进度缓慢。可以点击“Additional language data(download)”旁边的”+“号,选择几种需要的语言包。

设置安装目录。点击”Next“。

点击”Install“。

等待安装完成。


安装完成。点击”Finish“。

将目录添加到系统环境变量Path

查看版本信息
tesseract -v

tesseract --list-langs

pip install pytesseract

from PIL import Image
import pytesseract
# 添加tesseract的路径
pytesseract.pytesseract.tesseract_cmd = r'D:\software\Tesseract-OCR\tesseract.exe'
"""
image_to_string():如果识别英文或数字可以不必额外参数,如果识别其他语言则需要加上lang参数
lang='chi_sim'表示要识别的是中文简体
没有识别出来时,返回空白
"""
text = pytesseract.image_to_string(Image.open('test.jpg'), lang='chi_sim')
print(text)
test.jpg:

识别效果:

示例2:
test2.jpg:

识别效果:

示例3
test4.png:

识别效果:
