文件名称:pdf_extractor:提取PDF文件关键字,统计出现次数,写入Excel
文件大小:22.51MB
文件格式:ZIP
更新时间:2024-05-20 02:45:09
Python
提取PDF关键字,写入Excel 摘要:这篇文章介绍如何从PDF文件中提取关键字,然后写入到Excel中。首先程序把PDF解析为txt文件,然后程序从指定的Excel文件中加载关键字,再在txt中去寻找,最后将找到的关键字个数写入Excel 功能演示 需求描述:在我的keywordsExtractor 目录下有一些文件夹,文件夹内是pdf文件,我需要把这些pdf文件跟目标股票进行对比,如果该PDF属于目标股票,那么加载,否则不加载。然后把PDF中的一些特定关键词出现次数提取到Excel中,如下示例: 关键词从D列开始,任意添加。其中A1,B1,C1内容可以更改。 然后运行程序,得到的结果示例如下: 这里的年份是PDF所在文件夹的名称,你可以自己修改,股票代码是PDF文件名称的前6个字符。 实现过程 STEP 0: 加载需要的包 # -*- coding: UTF-8 -*- """ 1.加
【文件预览】:
pdf_extractor-master
----images()
--------p1.png(35KB)
--------p2.jpg(241KB)
----data()
--------中直股份.pdf(2.08MB)
--------15年数据.xlsx(15KB)
--------stockNum.xlsx(114KB)
--------16年数据.xls(54KB)
--------中远海发.pdf(2.72MB)
--------target_2013.xls(580KB)
--------中兴通讯.pdf(3.94MB)
--------15年.xls(30KB)
--------15年.xlsx(14KB)
--------中远海控.txt(683KB)
--------中远海发.txt(533KB)
--------17年.xlsx(14KB)
--------17年数据.xlsx(15KB)
--------中兴通讯.txt(1023KB)
--------target_2014.xls(579KB)
--------紫光股份.txt(535KB)
--------17年.xls(30KB)
--------15年数据.xls(54KB)
--------16年数据.xlsx(15KB)
--------16年.xls(30KB)
--------16年.xlsx(14KB)
--------中远海控.pdf(3.48MB)
--------中直股份.txt(398KB)
--------紫光股份.pdf(917KB)
--------17年数据.xls(54KB)
--------紫金矿业.txt(992KB)
--------target.xlsx(9KB)
--------紫金矿业.pdf(4.25MB)
----PDF_Extractor.py(9KB)
----PDF_Extractor.exe(7.81MB)
----ExtractTXT.py(6KB)
----README.md(10KB)
----run.bat(35B)