深入学习Tesseract-ocr识别中文并训练字库的方法 (2)

深入学习Tesseract-ocr识别中文并训练字库的方法

   这里选择不安装公共JRE,因为公共JRE是一个独立的JRE系统,它是单独的安装在windows系统下的其他路径下。公用的JRE会向浏览器和系统中注册Java运行时的环境。通过向浏览器和系统中注册运行时的环境,系统中的任何应用程序都可以使用公用JRE。但是现在在浏览器网页上执行applet的机会几乎没有,并且JDK目录下JRE完全可以胜任,所以一般选择不安装公用JRE。这里如果你不想安装在默认路径下,可以选择更改目录。

深入学习Tesseract-ocr识别中文并训练字库的方法

    单击下一步,会出现如下安装条。

深入学习Tesseract-ocr识别中文并训练字库的方法

   输入Java -version可以查看自己的Java版本。这样你的JDK就安装成功了。

深入学习Tesseract-ocr识别中文并训练字库的方法

 

四,识别中文效果  1,随便制作一张有汉字的图片,小编做的图片如下:

深入学习Tesseract-ocr识别中文并训练字库的方法

2,使用中文字库训练,程序如下:

import pytesseract from PIL import Image #打开验证码图片 image = Image.open('07.jpg') #加载一下图片防止报错,此处可以省略 image.load() #调用show来展示图片,调试用此处可以省略 image.show() text = pytesseract.image_to_string(Image.open('07.jpg'),lang ='chi_sim') print(text)

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zydddw.html