利用python获取pdf文件元数据

时间:2024-03-26 13:03:18

 

 

开发语言:python3

开发工具:pycharm

 

python第三方模块:PyPDF2

python内建模块:sys

 

第一步:pycharm安装第三方模块“PyPDF2”

利用python获取pdf文件元数据

利用python获取pdf文件元数据

利用python获取pdf文件元数据

 

第二步:导入模块“PyPDF2”,“sys”

利用python获取pdf文件元数据

 

第三步:定义一个变量,将pdf文件路径赋值给变量

利用python获取pdf文件元数据

 

第四步:调用open()用‘rb’二进制方式读取文件(这里我们可以打印下看看得到了什么)

读取的内容传给PyPDF2.PdfFileReader(),初始化一个PdfFileReader对象

利用python获取pdf文件元数据

利用python获取pdf文件元数据

 

 

第五步:调用PdfFileReader对象的getDocumentInfo()方法

得到pdf文件元数据(打印来看看得到了什么)

利用python获取pdf文件元数据

 

第六步:遍历字典的键值对(分别打印键和值来看下)

利用python获取pdf文件元数据

利用python获取pdf文件元数据

第七步:最终实现了我们的目的,得到了pdf的元数据

我们可以完善我们的代码让他看起来像个工具脚本

利用python获取pdf文件元数据