利用百度AI OCR图片识别，Java实现PDF中的图片转换成文字

日期：2021-06-14 栏目：程序人生浏览：次

序言：我们在读一些PDF版书籍的时候，如果PDF中不是图片，做起读书笔记的还好；如果PDF中的是图片的话，根本无法编辑，做起笔记来，还是很痛苦的。我是遇到过了。我们搞技术的，当然得自己学着解决现在的痛点。

一. 现状

为了不重复造轮子，当然得看看现在市面上是否有已经实现过的，如果有，那自然是拿来即用。

首先，说说一些在线版的PDF图片转文字，对文件大小有限制为2M(似乎有很多的文件处理都是限制在这个数)，超过了便要收费了。

第二，那就是WPS的PDF图片转文字了。别说大小限制了，直接是收费。

利用百度AI OCR图片识别，Java实现PDF中的图片转换成文字

二. 方案实现 2.1 百度AI平台获取AppID, API Key, Secret Key

该平台限制调用次数，作为个人开发者来说，基本上是够用了。

利用百度AI OCR图片识别，Java实现PDF中的图片转换成文字

Java SDK文档使用说明:

不清楚的，可以去看文档。

2.2 代码实现

逻辑思路：读取PDF文件，然后读取PDF中包含的图片，将图片传给百度AI平台去进行识别，返回结果解析。

第一步：新建一个Demo的Maven工程

省略....（相信大家都会哈）