深入学习Python解析并解密PDF文件内容的方法(3)

overwriteWarnings(bool) - 确定是否warnings.py使用自定义实现覆盖Python的 模块(默认为 True)。

decrypt(密码)

  使用带有PDF标准加密处理程序的加密/安全PDF文件时,此功能将允许解密文件。它根据文档的用户密码和所有者密码检查给定的密码,如果密码正确,则存储生成的解密密钥。

  哪个密码匹配无关紧要。两个密码都提供了正确的解密密钥,允许文档与此库一起使用。

参数:password(str) 要匹配的密码

  返回0如果密码失败,1密码是否与用户密码匹配,密码2是否与所有者密码匹配。

  返回类型: INT

  引发NotImplementedError:如果文档使用不受支持的加密方法。

documentInfo

  访问给定Destination对象的页码

getDestinationPageNumber(destination)

  检索PDF文件的文档信息字典(如果存在)。请注意,某些PDF文件使用元数据流而不是docinfo词典,此功能不会访问这些元数据流。

  返回:页码或者如果找不到页面的话 则为-1

  返回类型:INT

getDocumentInfo()

  检索PDF文件的文档信息字典(如果存在)。请注意,某些PDF文件使用元数据流而不是docinfo词典,此功能不会访问这些元数据流。

  返回:该PDF文件的文档信息

  返回类型:或者None如果不存在。

getFields(tree = None,retval = None,fileobj = None 

  如果此PDF包括交互式表单字段,则提取字段数据,该树和retval的参数是递归使用。

  参数:fileobj  用于在找到的所有交互式表单字段上写入报告的文件对象(通常是文本文件)

  返回:一个字典,其中每个键是一个字段名称,每个值都是一个个对象。默认情况下,映射名称用于键。

  返回类型:dict  或者None无法找到表单数据。

getFormTextFields()

  使用文本数据从文档中检索表单域(输入,下拉列表)

getNameDestinations(tree=None,retval=None)

  检索文档中存在的指定目标

  返回:将名称映射到的字典 。

  返回类型:字典

getNumPages()

  计算此PDF文件中的页面。

  返回:页面

  返回类型:INT

  引发PDFReadError:如果文件已加密且限制阻止此操作。

getOutlines(node=None,outlines=None)

  检查文档中存在的文档大纲。

  返回:一个实例。

  返回类型

getPageLayout()

  获取页面布局,有关 有效布局的说明,请参阅参考资料。

  返回:目前正在使用的页面布局

  返回类型:str None如果没有指定。

getPageMode()

  获取页面布局,有关 有效模式的说明,请参阅。

  返回:目前正在使用的页面模式。

  返回类型strNone如果没有指定。

getPageNumber()

  检索给定PageObject的页面。

  参数:page() - 获取页码的页面。应该是一个实例

  返回:页码或如果找不到页面,则为-1

  返回类型:INT

getXmpMetadata()

  从PDF文档跟目录中检索XMP(可扩展元数据平台)数据。

  返回: 可用于从文档访问XMP元数据的实例

  返回类型:或者 None如果在文档根目录中未找到元数据。

isEncrypted

  只读布尔属性,显示此PDF文件是否已加密。请注意,即使调用该方法,此属性(如果为true)仍将保持为true 。

namedDestinations

  访问该函数的只读属性 。

numPages

  访问该函数的只读属性 。

outlines   只读属性访问 功能。  
pageLayout

  访问该方法的只读属性 。

pageMode

  访问该方法的只读属性 。

pages

  只读属性,它根据和 方法模拟列表 。

xmpMetadata

访问该函数的只读属性 。

PDF读取操作:

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/326c69ad83386fe7634601de1c129360.html