table-extract:找到并提取PDF中的表格和图形下载

【文件属性】：

文件名称：table-extract:找到并提取PDF中的表格和图形

文件大小：24KB

文件格式：ZIP

更新时间：2024-05-12 11:26:14

Python

梯形表使用Tesseract从PDF提取表格，图形，地图和图片的工具安装如果您使用的是MacOS，则可以按以下方式安装依赖项： brew install ghostscript parallel tesseract 接下来，安装Python依赖项： pip install -r requirements.txt 用法示例假设您有一个名为my_doc.pdf的文档，则可以按如下方式准备它以进行处理和提取表： ./preprocess.sh ./my_doc_processed ./my_doc.pdf python do_extract.py ./my_doc_processed 这会将表和图形提取到./my_doc_processed/tables 。第一个命令将把PDF解析为必要的目录结构，并为Tesseract创建必要的数据产品。第二个将提取表。 preproces

立即下载

【文件预览】：
table-extract-master
----area_stats.py(18KB)
----table_extractor.py(37KB)
----process.sh(204B)
----do_extract.py(656B)
----preprocess.sh(511B)
----helpers.py(19KB)
----requirements.txt(83B)
----LICENSE.md(1KB)
----.gitignore(29B)
----pdf2hocr(695B)
----plot.py(3KB)
----annotate.py(3KB)
----README.md(2KB)

秒客网

table-extract:找到并提取PDF中的表格和图形

网友评论

相关文章