Apache PDFBox是一个开源Java库,支持PDF文档的开发和转换。 我们可以使用PDFBox开发可以创建,转换和操作PDF文档的Java程序。PDFBox的主要功能:
Extract Text - 使用PDFBox,您可以从PDF文件中提取Unicode文本。Split & Merge - 使用PDFBox,您可以将单个PDF文件分成多个文件,并将它们合并为一个文件。Fill Forms - 使用PDFBox,您可以在文档中填写表单数据。Print - 使用PDFBox,您可以使用标准Java打印API打印PDF文件。Save as Image - 使用PDFBox,您可以将PDF保存为图像文件,如PNG或JPEG。Create PDFs - 使用PDFBox,您可以通过创建Java程序创建新的PDF文件,还可以包含图像和字体。Signing - 使用PDFBox,您可以将数字签名添加到PDF文件。PDFBox的四个主要组成部分:
PDFBox - 这是PDFBox的主要部分。 它包含与内容提取和操作相关的类和接口。FontBox - 它包含与font相关的类和接口,使用这些类我们可以修改PDF文档的文本字体。XmpBox - 包含处理XMP元数据的类和接口。Preflight - 此组件用于根据PDF/A-1b标准验证PDF文件。PDFBOX操作PDF文档基本实现:
创建PDF文档( Creating a PDF Document)添加页面( Adding Pages)删除页面( Removing Pages)读写文档属性( Document Properties)添加文本( Adding Text)添加多行( Adding Multiple Lines)读取文本( Reading Text)插入图像( Inserting Image)加密PDF文档(Encrypting a PDF Document)拆分PDF文档( Splitting a PDF Document)合并多个PDF文档(Merging Multiple PDF Documents)从PDF文档生成图像(Save Images)添加矩形( Adding Rectangles)详细参考PDFBOX官网
1.2 项目需求分析项目中需要根据既有的电子图书进行信息化的归档,方便分类目查询。因为图书主要是以如下排版存在:
相对来说页面分为左右两部分,右侧是知识点的描述,比较规范。左侧是图文的说明,为了生动,各种形式,大小都有,基本上没有规律,所以无法进行解析。最终敲定方案如下:
右侧描述根据章节来生成知识点描述,可以按章节或者关键字检索。对应描述的左侧部分,需要整体生成辅助说明一个图片。辅助说明相应的知识点内容。
拆分成技术实现为:
指定区域进行PDF文字内容提取指定区域进行PDF图片内容提取 1.3 代码实现 1.3.1 SpringBoot工程引入PDFBox依赖POM.xml
<!-- https://mvnrepository.com/artifact/org.apache.pdfbox/pdfbox --><dependency> <groupId>org.apache.pdfbox</groupId> <artifactId>pdfbox</artifactId> <version>2.0.18</version></dependency>PdfboxUtils.java
package com.gavinbj.common.utils;import java.awt.Rectangle;import java.awt.image.BufferedImage;import java.io.File;import org.apache.pdfbox.pdmodel.PDDocument;import org.apache.pdfbox.pdmodel.PDPage;import org.apache.pdfbox.rendering.PDFRenderer;import org.apache.pdfbox.text.PDFTextStripperByArea;public class PdfboxUtils {public static final String REGION_NAME = "content";/** * 根据指定文件页码的指定区域读取文字 * * @param filePath PDF文件路径 * @param iPage PDF页码 * @param textRrect 读取文字的区域 * @return 文字内容 */public static String readRectangelText(String filePath, int iPage, Rectangle textRrect) {String textContent = "";try(PDDocument pdfDoc = PDDocument.load(new File(filePath))) {// 获取指定的PDF页PDPage pdfPage = pdfDoc.getPage(iPage);// 获取指定位置的文字(文字剥离器)PDFTextStripperByArea textStripper = new PDFTextStripperByArea();textStripper.setSortByPosition(true);textStripper.addRegion(REGION_NAME, textRrect);textStripper.extractRegions(pdfPage);textContent = textStripper.getTextForRegion(REGION_NAME);// 释放资源pdfDoc.close();} catch (Exception ex) {ex.printStackTrace();} return textContent;}/** * 根据指定文件页码的指定区域读取图片 * * @param filePath PDF文件路径 * @param iPage PDF页码 * @param imgRrect 读取图片的区域 * @return 图片内容 */public static BufferedImage readRectangelImage(String filePath, int iPage, Rectangle imgRrect) {BufferedImage bufImage = null;try(PDDocument pdfDoc = PDDocument.load(new File(filePath))) {// 获取渲染器,主要用来后面获取BufferedImagePDFRenderer pdfRenderer = new PDFRenderer(pdfDoc);// 截取指定位置生产图片bufImage = pdfRenderer.renderImage(iPage).getSubimage(imgRrect.x,imgRrect.y,imgRrect.width,imgRrect.height); // 释放资源pdfDoc.close();} catch (Exception ex) {ex.printStackTrace();} return bufImage;}}PdfTest.java:测试类
package com.gavinbj.common.utils;import java.awt.Rectangle;import java.awt.image.BufferedImage;import java.io.File;import java.io.IOException;import javax.imageio.ImageIO;public class PdfTest {public static void main(String[] args) throws IOException { String pdfPath="C:\PDFDemos\pdf\9.pdf"; Rectangle textRrect = new Rectangle(420, 80, 130, 245); String strContent = PdfboxUtils.readRectangelText(pdfPath, 0, textRrect); System.out.println(strContent);// 保存图片Rectangle imgRrect = new Rectangle(0, 76, 420, 240);BufferedImage bufImage = PdfboxUtils.readRectangelImage(pdfPath, 0, imgRrect);File outputfile = new File("D:\pdfImage2.png"); ImageIO.write(bufImage, "png", outputfile);}}执行测试结果:
一、太阳辐射1 …概念:太阳源源不断地以电磁波的形式向四周放射能量,被称为太阳辐射。太阳辐射携带巨大的能量。地球所接收到的太阳辐射能量仅为太阳向宇宙空间放射的总辐射能量的二十亿分之一。在日地平均距离处与太阳光垂直的地球大气上界单位面积上在单位时间内所接收到的太阳辐射的所有波长的总能量,称为太阳常数。结论:从上面例子可以看出使用PDFBOX相应的方法可以读取指定位置的文字。
并可以从指定位置提取图片并保存,不同于直接读取PDF中内嵌的对象,可以根据你的指定区域直接截取相应的内容作为图片保存,但是处理速度不敢恭维,特别慢。暂时没有想到优化的办法。