最近的需求之一是需要将Word批量转换为HTML。
如果是比较少量的Word文件,用Word附带的“另存为”就可以了。 但是,如果Word文件的量很大,这是一件复杂的事情。
在网上查了很多,有PHP、Python、Ruby、C#等解决方法。 我在其中找到了“快速转换器”,但不太符合我的需求,所以我决定自己写。 因为Word来自微软,所以我认为C#解决这个问题可能会很好。
我用GitHub把自己写的带GUI的代码开源了。 https://github.com/huji ulin/convertwordtohtml [当前为单线程,然后更改为多线程]。
执行接口如下。
程序的初始接口:
“打开”选择包含Word文档的输入文件。
选择" SaveAs "输出文件夹。
程序执行结束:
和输出结果:
步骤说明:
依赖关系: Windows操作系统, Net FrameWork 3.5,Office Word
要将Word另存为HTML,可以从以下几种格式中进行选择:单个网页mht、网页htm和过滤的网页htm。 我选择的是筛选出的html,所有的公式都被转换成gif或jpg图像。 稍微规范一点的htm不包含微软恶心的格式信息。
2015-1-24更新:
renamesolutionandprojecttowordconverter; add feature :转换器wordtopdf; 添加feature switch特殊导出;
Word转换工具现在支持HTML和PDF格式。