PDFplumber库提供了一种用于从pdf文件中提取文本的extract_text ()方法。 使用PDFplumber的open ()方法,只需打开要提取文本的pdf文件,然后对要提取的页面使用extract_text ()方法即可提取所需的文本。
如果要提取文档中的所有字符,请使用循环浏览PDF文档中的所有页面
代码示例
import pdfplumberimport os#页上的字符def extract _ text _ one page (文件路径、 wpage ) : pdf=pdf plumber.open (file path ) page=pdf.pages[wpage]print ) page.extract_text ) # # 提取所有字符def extract 3360 pdf=pdf plumber.open (文件路径) forpageinpdf.pages : print (page.extract _ text ) ) if pdf文件位于当前目录中,path ='\paper2020.pdf' #文件名extract_text_onepage(path,1 ) extract_text_allpage )