深入学习Python解析并解密PDF文件内容的方法(4)

# encoding:utf-8 from PyPDF2 import PdfFileReader, PdfFileWriter readFile = 'C:/ learn.pdf' # 获取 PdfFileReader 对象 pdfFileReader = PdfFileReader(readFile) # 或者这个方式:pdfFileReader = PdfFileReader(open(readFile, 'rb')) # 获取 PDF 文件的文档信息 documentInfo = pdfFileReader.getDocumentInfo() print('documentInfo = %s' % documentInfo) # 获取页面布局 pageLayout = pdfFileReader.getPageLayout() print('pageLayout = %s ' % pageLayout) # 获取页模式 pageMode = pdfFileReader.getPageMode() print('pageMode = %s' % pageMode) xmpMetadata = pdfFileReader.getXmpMetadata() print('xmpMetadata = %s ' % xmpMetadata) # 获取 pdf 文件页数 pageCount = pdfFileReader.getNumPages() print('pageCount = %s' % pageCount) for index in range(0, pageCount): # 返回指定页编号的 pageObject pageObj = pdfFileReader.getPage(index) print('index = %d , pageObj = %s' % (index, type(pageObj))) # <class 'PyPDF2.pdf.PageObject'> # 获取 pageObject 在 PDF 文档中处于的页码 pageNumber = pdfFileReader.getPageNumber(pageObj) print('pageNumber = %s ' % pageNumber)

 六: PDFFileWriter类

  这个类支持PDF文件,给出其他类生成的页面。

属性和方法描述
addAttachment(fname,fdata)   在 PDF 中嵌入文件  
addBlankPage(width= None,height=None)   追加一个空白页面到这个 PDF 文件并返回它  
addBookmark(title,pagenum,parent=None,
color=None,bold=False,italic=False,fit=’/fit,*args’)
     
addJS(javascript)   添加将在打开此 PDF 是启动的 javascript  
addLink(pagenum,pagedest,rect,border=None,fit=’/fit’,*args)   从一个矩形区域添加一个内部链接到指定的页面  
addPage(page)   添加一个页面到这个PDF 文件,该页面通常从 PdfFileReader 实例获取  
getNumpages()   页数  
getPage(pageNumber)   从这个 PDF 文件中检索一个编号的页面  
insertBlankPage(width=None,height=None,index=0)   插入一个空白页面到这个 PDF 文件并返回它,如果没有指定页面大小,就使用最后一页的大小  
insertPage(page,index=0)   在这个 PDF 文件中插入一个页面,该页面通常从 PdfFileReader 实例获取  
removeLinks()   从次数出中删除连接盒注释  
removeText(ignoreByteStringObject = False)   从这个输出中删除图像  
write(stream)   将添加到此对象的页面集合写入 PDF 文件  
PDF写入操作

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/326c69ad83386fe7634601de1c129360.html