书接上回:
避坑教程:最新百度PaddleOCR文字识别成功下载安装保姆级手把手教程 (weibo.com)
首先,讲下这个工具是干什么用的:它的功能主要是针对一张完整的PDF图片,可以对文档图片中的文本、表格、图片、标题与列表区域进行分类。同时还可以利用表格识别技术完整地提取表格结构信息,使得表格图片变为可编辑的Excel文件。如下图所示可以进行版面分析+表格识别。
先看表格图片OCR保存为Excel,实际效果对比
核心技术在于两个:一个是PP-Structure的版面分析技术,另一个是PaddleDetection开源的高效检测算法PP-YOLO v2。
PP-Structure Pipeline介绍:
安装 Layout-Parser
pip3 install -U https://paddleocr.bj.bcebos.com/whl/layoutparser-0.0.0-py3-none-any.whl
如果遇到如下错误提示:
ModuleNotFoundError: No module named \'win32con\'
【解决方案】:
pip uninstall winshell
pip uninstall pypiwin32
pip install pywin32
pip install pypiwin32
1、安装pywin32
pip install pywin32
2、在site-packages找到win32
3、进入win32\lib\win32con.py
4、把win32con.py复制到site-packages可以直接import
import win32con
5、把win32con.py复制到win32目录下
import win32.win32con
6、读取不到的原因是因为不在sys.path下,所以改变环境变量的路径也行
查看python位数
C:\Users\king>python
Python 3.9.1 (tags/v3.9.1:1e5d33e, Dec 7 2020, 17:08:21) [MSC v.1927 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
从以下链接下载相应的版本后安装
https://github.com/mhammond/pywin32/releases
老版本:
https://sourceforge.net/projects/pywin32/files/pywin32
My solution is:
python -m pip install pywin32
. Then you will see module win32file in the path of C:/python27/Lib/site-packages/win32file.pyd
download
https://paddle-model-ecology.bj.bcebos.com/model/layout-parser/ppyolov2_r50vd_dcn_365e_publaynet.tar
to C:\Users\king/.paddledet/inference_model\ppyolov2_r50vd_dcn_365e_publaynet\ppyolov2_r50vd_dcn_365e_publaynet_infer\ppyolov2_r50vd_dcn_365e_publaynet.tar
更改环境变量:
默认的模型保存文件夹:
详情:O网页链接