深入学习Tesseract-ocr识别中文并训练字库的方法

日期：2021-06-27 栏目：程序人生浏览：次

　　上篇文章简单的学习了tesseract-ocr识别图片中的英文（链接地址如下：https://www.cnblogs.com/wj-1314/p/9428909.html），看起来效果还不错，所以这篇文章继续深入学习tesseract-ocr识别图片中的中文。

一，准备中文字库

　　下载chi_sim.traindata字库。要有这个才能识别中文。下好后，放到Tesseract-OCR项目的tessdata文件夹里面。（注意下载字库，一定要看库对应的tesseract版本下载）

深入学习Tesseract-ocr识别中文并训练字库的方法

　　为什么强调版本呢，小编这里讲自己做的愚蠢的事情附上，希望大家别入坑了。

　上一篇学习Tesseract-ocr中，识别的是英文，然后小编下载了中文库，如下

深入学习Tesseract-ocr识别中文并训练字库的方法

　　不知道是什么原因，总是报错。报错如下：

深入学习Tesseract-ocr识别中文并训练字库的方法

　　我找了多种方法，包括重新安装库，配置环境变量，仍然没有解决问题，所以在这里，我又考虑到Tesseract的版本问题，所以打算重新最新版 w64-v4.0.0，继续试试。附上下载链接地址

　　下载Tesseract的地址：https://digi.bib.uni-mannheim.de/tesseract/

　　下载Tesseract-ocr包的地址：https://github.com/tesseract-ocr/tesseract/wiki/Data-Files

　　下载Tesseract的Git地址：https://github.com/tesseract-ocr/tesseract/wiki

　　经过一天的折腾，在tesseract的GitHub中，我偶然发现了问题的所在，可以说自己是非常的蠢，请看下图

深入学习Tesseract-ocr识别中文并训练字库的方法

　　也就是不同的版本，安装的中文包是不同的，而我乱安装了包，所以一直报错，还没有解决问题，下次一定不能这么粗心。

二，准备训练字库

　　下载jTessBoxEditor，这个是用来训练字库的。

深入学习Tesseract-ocr识别中文并训练字库的方法

　　以上的在百度都能找到下载，就不详细讲了（要是找不到的，可以留言给我），下载好之后就是这样的。

深入学习Tesseract-ocr识别中文并训练字库的方法

三，下载Java虚拟机（Java大法好啊）

　　如果你刚刚接触Java语言，并且对它兴趣很大，想继续研究。那么这节就来给你说说怎么安装Java工具JDK，它是你进行Java的第一步。

首先你要下载Java的JDK（JDK的全称是:Java Development Kit即Java语言软件工具开发包），目前最新的JDK版本是1.8，Java最初是SUN公司，因后来被oracle公司收购，故你需要到oracle官网上下载JDK网址是：。输入这个网址你就可以看到下面图片

深入学习Tesseract-ocr识别中文并训练字库的方法

　　其中图片中现实的上面是oracle公司提供的Java JDK，上面有两个按钮，默认是不接受License，你需要接受以后就可以下载Java的JDK，这里你需要根据自己电脑的类型，以及操作系统的位数，下载对应的JDK。下面的一个是oracle公司对JDK提供的demos和Samples即简单的例子，可以供我们学习，感兴趣的可以下载下来学习。

这里我选择下载JDK的Windows的64位JDK，下面图片是下载的JDK的安装包。

深入学习Tesseract-ocr识别中文并训练字库的方法

双击JDK安装包，点击下一步。

转载注明出处：https://www.heiqu.com/zydddw.html

深入学习Tesseract-ocr识别中文并训练字库的方法

相关推荐