QQ:231469242,版权所有
sklearn实战-乳腺癌细胞数据挖掘
https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share
作用:pdf内容批量提取到excel
各位亲朋好友,我才上班时候有个鼓噪乏味工作,就是把一个个PDF内容复制粘贴到Excel表格里面,方便以后数据库全文搜索。
举个例子,此Excel有两个字段
A列是pdf文件名
B列用于存放pdf提取的内容
当所有PDF内容复制到Excel后,数据库就可以实现全文搜索功能。
几十上百个PDF复制粘贴工作也许一天就搞定了,但成千上万个PDF,你是不是要抓狂?为此,我专门用Python开发了PDF批量提取机器人,名字叫pdf_data_extract3
程序放入文件夹,双击就完成自动提取
检查错误数据
提取失败的excel文件名保持在extract_failed_File.txt文档中
如果任务百分之百成功,会显示:恭喜主人,干的漂亮
给大家展示最后提取的结果,B列就是自动提取的内容。
有了PDF自动提取机器人,大家工作就没这么辛苦了。只需要双击一下鼠标,然后泡杯咖啡,坐等机器人完成任务。