百度文库的主要功能就是将上传的word文档,转码成pdf格式再展示出来。其中有四种方法可以实现这样的操作:
方法一:用apache pio 读取doc文件,然后转成html文件用Jsoup格式化html文件,最后用itext将html文件转成pdf。方法2:使用jdoctopdf来实现,这是一个封装好的包,可以把doc转换成pdf,html,xml等格式,调用很方便
需要注意中文字体的写入问题。
方法3:使用jodconverter来调用openOffice的服务来转换,openOffice有个各个平台的版本,所以这种方法跟方法1一样都是跨平台的。
安装完后要启动openOffice的服务,具体启动方法请自行google
方法4:效果最好的一种方法,但是需要window环境,而且速度是最慢的需要安装msofficeWord以及SaveAsPDFandXPS.exe(word的一个插件,用来把word转化为pdf)
Office版本是2007,因为SaveAsPDFandXPS是微软为office2007及以上版本开发的插件
这里我们采用第三种方法,因为其跨平台的属性和简单方便的操作。
windows下:1.首先下载window版本的openoffice进行安装,并首次启动。 2.这里我们不做配置,因为在代码中我们调用命令对openoffice进行启动并实时关闭,这样对占用内存的解决是一个很好的方案,如果转码不是常用功能的话。 3.下载jodconverter,将lib文件夹下所有的jar包导入 Linux下: 1.首先安装openoffice for linux,可以去官网下载也可以用命令。 命令下载: wget http://sourceforge.net/projects/openofficeorg.mirror/files/4.1.1/binaries/zh-CN/Apache_OpenOffice_4.1.1_Linux_x86-64_install-rpm_zh-CN.tar.gz tar -xzvf Apache_OpenOffice_4.1.1_Linux_x86-64_install-rpm_zh-CN.tar.gz cd zh-CN cd RPMS rpm -ivh *.rpm 2.在linux中也同样可以调用命令启动,不过告诉大家的是,可以设置为开机启动或随tomcat启动,以便转码程序启动频繁。