windows下使用python运行pdf2htmlex

1、下载

网址：http://soft.rubypdf.com/software/pdf2htmlex-windows-version

我下载的第二个。

2、安装

解压，shift+鼠标右键在当前文件夹下运行cmd（powershell）

输入 .\pdf2htmlEX，得到下列窗口说明安装成功

（本来应该直接输入pdf2htmlEX就可以的不知道为什么没成功？）

windows下使用python运行pdf2htmlex

3、使用

在PDF所在文件夹的上级文件夹（PDF所在文件夹叫pdf）下打开编译器

import subprocess

filename = "2" #你的文档名
subprocess.call(r"F:\aboutpython\pdf2htmlEX-win32-0.14.6-with-poppler-data\pdf2htmlEX.exe pdf/"+filename+".pdf --dest-dir pdf/"+filename, shell=True)

#这个函数有四个参数，第一个是要运行的进程（pdf2htmlEX.exe），第二个是要处理的pdf，第三个是--dest-dir（不知道是什么），第四个是输出的文件路径

发现pdf文件夹下新增2文件夹，2文件夹下新增2.html

4、效果

windows下使用python运行pdf2htmlex

与原pdf一模一样

但是

windows下使用python运行pdf2htmlex

文字被拆的四分五裂，基本无法进行html解析

over

参考资料：https://blog.csdn.net/yuan882696yan/article/details/25185977

秒客网

windows下使用python运行pdf2htmlex

相关文章