在JAVA下实现数据库对word文件的读取与字段的提取

  实现excel中的数据导入数据库,在java或是C#下是不难实现的,即使想实现在txt中的数据导入也不是什么难事,但是,最近接了个任务,学校要建一个英文版的教学平台,然后各个学院的课程资料与简介什么的都是英文的,学校有20个学院,每个学院多的有两百来个科目,少的也有百八十种,可他偏偏就是个word,而且,做的格式很不规范。这可愁着我了,我首先想到的是POI,于是google了一下,原来真的很容易实现,这个后面的代码可以发上去,可以实现03版,和07版的。差别主要是jar包的问题。03的要3个jar包,07的需要7个jar包。

1 * POI 读取 word 2003 和 word 2007 中文字内容的测试类<br />
2 * @createDate 2009-07-25
3 * @author Carl He
4 */
5 public class Test {
6 public static void main(String[] args) {
7 try {
8 ////word 2003: 图片不会被读取
9 InputStream is = new FileInputStream(new File("files\\2003.doc"));
10 WordExtractor ex = new WordExtractor(is);//is是WORD文件的InputStream
11 String text2003 = ex.getText();
12
13 System.out.println(text2003);
14 //对字符串进行分解
15
16 //word 2007 图片不会被读取, 表格中的数据会被放在字符串的最后
17 OPCPackage opcPackage = POIXMLDocument.openPackage("files\\2007.docx");
18 POIXMLTextExtractor extractor = new XWPFWordExtractor(opcPackage);
19 String text2007 = extractor.getText();
20 System.out.println(text2007);
21
22 } catch (Exception e) {
23 e.printStackTrace();
24 }
25 }
26 }

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zzyfff.html