1、下载
网址:http://soft.rubypdf.com/software/pdf2htmlex-windows-version
我下载的第二个。
2、安装
解压,shift+鼠标右键在当前文件夹下运行cmd(powershell)
输入 .\pdf2htmlEX,得到下列窗口说明安装成功
(本来应该直接输入pdf2htmlEX就可以的不知道为什么没成功?)
3、使用
在PDF所在文件夹的上级文件夹(PDF所在文件夹叫pdf)下打开编译器
import subprocess
filename = "2" #你的文档名
subprocess.call(r"F:\aboutpython\pdf2htmlEX-win32-0.14.6-with-poppler-data\pdf2htmlEX.exe pdf/"+filename+".pdf --dest-dir pdf/"+filename, shell=True)
#这个函数有四个参数,第一个是要运行的进程(pdf2htmlEX.exe),第二个是要处理的pdf,第三个是--dest-dir(不知道是什么),第四个是输出的文件路径
发现pdf文件夹下新增2文件夹,2文件夹下新增2.html
4、效果
与原pdf一模一样
但是
文字被拆的四分五裂,基本无法进行html解析
over
参考资料:https://blog.csdn.net/yuan882696yan/article/details/25185977