深入学习Tesseract-ocr识别中文并训练字库的方法

  上篇文章简单的学习了tesseract-ocr识别图片中的英文(链接地址如下:https://www.cnblogs.com/wj-1314/p/9428909.html),看起来效果还不错,所以这篇文章继续深入学习tesseract-ocr识别图片中的中文

一,准备中文

   下载chi_sim.traindata库。要有这个才能识别中文。下好后,放到Tesseract-OCR项目的tessdata文件夹里面。(注意下载字库,一定要看库对应的tesseract版本下载)

深入学习Tesseract-ocr识别中文并训练字库的方法

  为什么强调版本呢 ,小编这里讲自己做的愚蠢的事情附上,希望大家别入坑了。

    上一篇学习Tesseract-ocr中,识别的是英文,然后小编下载了中文库,如下

深入学习Tesseract-ocr识别中文并训练字库的方法

  不知道是什么原因,总是报错。报错如下:

深入学习Tesseract-ocr识别中文并训练字库的方法

  我找了多种方法,包括重新安装库,配置环境变量,仍然没有解决问题,所以在这里,我又考虑到Tesseract的版本问题,所以打算重新最新版 w64-v4.0.0,继续试试。附上下载链接地址

  下载Tesseract的地址:https://digi.bib.uni-mannheim.de/tesseract/

  下载Tesseract-ocr包的地址:https://github.com/tesseract-ocr/tesseract/wiki/Data-Files

  下载Tesseract的Git地址:https://github.com/tesseract-ocr/tesseract/wiki

   经过一天的折腾,在tesseract的GitHub中,我偶然发现了问题的所在,可以说自己是非常的蠢,请看下图

深入学习Tesseract-ocr识别中文并训练字库的方法

   也就是不同的版本,安装的中文包是不同的,而我乱安装了包,所以一直报错,还没有解决问题,下次一定不能这么粗心。

二,准备训练字库

  下载jTessBoxEditor,这个是用来训练字库的。

深入学习Tesseract-ocr识别中文并训练字库的方法

 

  以上的在百度都能找到下载,就不详细讲了(要是找不到的,可以留言给我),下载好之后就是这样的。

 

深入学习Tesseract-ocr识别中文并训练字库的方法

三,下载Java虚拟机(Java大法好啊)

  如果你刚刚接触Java语言,并且对它兴趣很大,想继续研究。那么这节就来给你说说怎么安装Java工具JDK,它是你进行Java的第一步。

      首先你要下载Java的JDK(JDK的全称是:Java  Development Kit即Java语言软件工具开发包),目前最新的JDK版本是1.8,Java最初是SUN公司,因后来被oracle公司收购,故你需要到oracle官网上下载JDK网址是:。输入这个网址你就可以看到下面图片

深入学习Tesseract-ocr识别中文并训练字库的方法

深入学习Tesseract-ocr识别中文并训练字库的方法

深入学习Tesseract-ocr识别中文并训练字库的方法

  其中图片中现实的上面是oracle公司提供的Java JDK,上面有两个按钮,默认是不接受License,你需要接受以后就可以下载Java的JDK,这里你需要根据自己电脑的类型,以及操作系统的位数,下载对应的JDK。下面的一个是oracle公司对JDK提供的demos和Samples即简单的例子,可以供我们学习,感兴趣的可以下载下来学习。

       这里我选择下载JDK的Windows的64位JDK,下面图片是下载的JDK的安装包。

深入学习Tesseract-ocr识别中文并训练字库的方法

  双击JDK安装包,点击下一步。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zydddw.html