实际测试情况:解析表格的能力比较差,它把三列的表格解析成了很多列。
安装
pip install pdfplumber
可运行代码
# 导入pdfplumber
import pdfplumber
# 读取pdf文件,保存为pdf实例
pdf = pdfplumber.open("D:\\angus\\py\\困难pdf节选*奇正2022.pdf")
# 访问第二页
first_page = pdf.pages[2]
# 自动读取表格信息,返回列表
table = first_page.extract_table()
print(table)
实际PDF中的表格
解析后的结果,可以看到都是错误的。因为它解析出来九列。