poi将word转换成html,java实现word预览

这里不太介绍poi，请贴官网https://poi.Apache.org /，自由查看。

首先，要明确如何将doc/docx文档转换为html/htm。根据POI文档，可以看到用于处理doc格式文档的POI API是HWPF，而docx格式是XWPF。这里请参考这个好句子。 http://www.open-open.com/lib/view/open 1389594797523.html清楚地描述了格式转换。

因此，取决于文档类型，doc使用HWPF对象处理转换，而docx使用XWPF对象处理转换。

一.处理doc。

这个比较简单，我在网上查了一下，我的代码也是根据网上的东西做自己的优化和逻辑。

POI可以支持较早的doc处理，所以资料很多。

其思想是HWPFDocument对象实例化文件流-WordToHtmlConverter对象处理HWPFDocument对象和预处理页的图像等(主要是图像)

文档说明：

转换世界文件(95-2007 ) into html文件。

thisimplementationdoesn ' tcreateimagesorlinkstothem.thiscanbechangedbyoverridingabstractwordconverter.processimage (

-org.w3c.dom.Document对象处理WordToHtmlConverter并生成DOM对象-输出文件。

这里的优点是，通过使用Document对象可以解决编码、文件格式等问题。

这里流程很简单，直接贴上简单的demo，看评论就可以了：

import Java.io.bytearray output stream；

import java.io.File；

import java.io.FileInputStream；

import Java.io.file not found exception；

import java.io.FileOutputStream；

import java.io.InputStream；

import java.io.OutputStream；

import java.util.List；

import javax.XML.parsers.documentbuilderfactory；

import javax.XML.transform.output keys；

import javax.XML.transform.transformer；

import javax.XML.transform.transformer factory；

import javax.XML.transform.DOM.DOM source；

import javax.XML.transform.stream.stream result；

importorg.Apache.com mons.io.fileutils；

importorg.Apache.poi.hwpf.hwpfdocument；

importorg.Apache.poi.hwpf.converter.pictures manager；

importorg.Apache.poi.hwpf.converter.wordtohtmlconverter；

importorg.Apache.poi.hwpf.usermodel.picture；

importorg.Apache.poi.hwpf.usermodel.picture type；

importorg.Apache.poi.xwpf.converter.core.fileimageextractor；

importorg.Apache.poi.xwpf.converter.core.fileuriresolver；

importorg.Apache.poi.xwpf.converter.XHTML.XHTML converter；

importorg.Apache.poi.xwpf.converter.XHTML.XHTML options；

importorg.Apache.poi.xwpf.usermodel.xwpfdocument；

importorg.Apache.poi.xwpf.usermodel.xwpfpicturedata；

import org.w3c.dom.Document；

公共类策略{

公共void parse docx 2

Html() throws Throwable {

final String path = "F:\";

final String file = "xxxxxxx.doc";

InputStream input = new FileInputStream(path + file);

String suffix = file.substring(file.indexOf(".")+1);// //截取文件格式名

//实例化WordToHtmlConverter，为图片等资源文件做准备

WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(

DocumentBuilderFactory.newInstance().newDocumentBuilder()

.newDocument());

wordToHtmlConverter.setPicturesManager(new PicturesManager() {

public String savePicture(byte[] content, PictureType pictureType,

String suggestedName, float widthInches, float heightInches) {

return suggestedName;

}

});

if ("doc".equals(suffix.toLowerCase())) {

// docx

HWPFDocument wordDocument = new HWPFDocument(input);

wordToHtmlConverter.processDocument(wordDocument);

//处理图片，会在同目录下生成 image/media/ 路径并保存图片

List pics = wordDocument.getPicturesTable().getAllPictures();

if (pics != null) {

for (int i = 0; i < pics.size(); i++) {

Picture pic = (Picture) pics.get(i);

try {

pic.writeImageContent(new FileOutputStream(path

+ pic.suggestFullFileName()));

} catch (FileNotFoundException e) {

e.printStackTrace();

}

// 转换

Document htmlDocument = wordToHtmlConverter.getDocument();

ByteArrayOutputStream outStream = new ByteArrayOutputStream();

DOMSource domSource = new DOMSource(htmlDocument);

StreamResult streamResult = new StreamResult(outStream);

TransformerFactory tf = TransformerFactory.newInstance();

Transformer serializer = tf.newTransformer();

serializer.setOutputProperty(OutputKeys.ENCODING, "utf-8");//编码格式

serializer.setOutputProperty(OutputKeys.INDENT, "yes");//是否用空白分割

serializer.setOutputProperty(OutputKeys.METHOD, "html");//输出类型

serializer.transform(domSource, streamResult);

outStream.close();

String content = new String(outStream.toByteArray());

FileUtils.writeStringToFile(new File(path, "interface.html"), content,

"utf-8");

}

public static void main(String[] args) throws Throwable {

new POIForeViewUtil().parseDocx2Html();

}

接着看第二种

二、处理docx。

docx是07的版本，处理起来困难的多，貌似POI对docx的处理方法没有doc那么便捷，处理样式等等都有问题，我遇到的两个最明显问题就是字体编码问题和表格的边框线显示。

思路：XWPFDocument加载文件流 -> XHTMLOptions处理页面资源(主要图片) -> OutputStream输出流直接输出文件。

过程代码相当简单，可是越简单结果约没有预期的好。输出的文件字体编码默认为GBK，例如我的“微软雅黑”字体就变成“寰蒋闆呴粦”，而且节点的显示也没有doc处理的好。

同样贴一下demo代码：

import java.io.File;

import java.io.FileInputStream;

import java.io.FileOutputStream;

import java.io.IOException;

import java.io.InputStream;

import java.io.OutputStream;

import javax.xml.transform.OutputKeys;

import javax.xml.transform.Transformer;

import javax.xml.transform.TransformerFactory;

import javax.xml.transform.stream.StreamResult;

import org.apache.poi.xwpf.converter.core.FileImageExtractor;

import org.apache.poi.xwpf.converter.core.FileURIResolver;

import org.apache.poi.xwpf.converter.xhtml.XHTMLConverter;

import org.apache.poi.xwpf.converter.xhtml.XHTMLOptions;

import org.apache.poi.xwpf.usermodel.XWPFDocument;

import org.apache.poi.xwpf.usermodel.XWPFPictureData;

public class Word07ToHtml {

public static void parseToHtml() throws IOException {

File f = new File("F:/xxxxx.docx");

if (!f.exists()) {

System.out.println("Sorry File does not Exists!");

} else {

if (f.getName().endsWith(".docx") || f.getName().endsWith(".DOCX")) {

// 1) 加载XWPFDocument及文件

InputStream in = new FileInputStream(f);

XWPFDocument document = new XWPFDocument(in);

// 2) 实例化XHTML内容(这里将会把图片等文件放到生成的"word/media"目录)

File imageFolderFile = new File("f:/opt");

XHTMLOptions options = XHTMLOptions.create().URIResolver(

new FileURIResolver(imageFolderFile));

options.setExtractor(new FileImageExtractor(imageFolderFile));

//options.setIgnoreStylesIfUnused(false);

//options.setFragment(true);

// 3) 将XWPFDocument转成XHTML并生成文件

OutputStream out = new FileOutputStream(new File(

"F:/result.html"));

XHTMLConverter.getInstance().convert(document, out, null);

} else {

System.out.println("Enter only MS Office 2007+ files");

}

public static void main(String args[]) {

try {

//String string = new String("寰蒋闆呴粦".getBytes("GBK"), "UTF-8");

//System.out.println(string);

parseToHtml();

} catch (IOException e) {

e.printStackTrace();

}

由于已将两个Demo移出项目，没有截图。

POI的jar包下载路径：