文件名称:table-extract:找到并提取PDF中的表格和图形
文件大小:24KB
文件格式:ZIP
更新时间:2024-05-12 11:26:14
Python
梯形表 使用Tesseract从PDF提取表格,图形,地图和图片的工具 安装 如果您使用的是MacOS,则可以按以下方式安装依赖项: brew install ghostscript parallel tesseract 接下来,安装Python依赖项: pip install -r requirements.txt 用法示例 假设您有一个名为my_doc.pdf的文档,则可以按如下方式准备它以进行处理和提取表: ./preprocess.sh ./my_doc_processed ./my_doc.pdf python do_extract.py ./my_doc_processed 这会将表和图形提取到./my_doc_processed/tables 。 第一个命令将把PDF解析为必要的目录结构,并为Tesseract创建必要的数据产品。 第二个将提取表。 preproces
【文件预览】:
table-extract-master
----area_stats.py(18KB)
----table_extractor.py(37KB)
----process.sh(204B)
----do_extract.py(656B)
----preprocess.sh(511B)
----helpers.py(19KB)
----requirements.txt(83B)
----LICENSE.md(1KB)
----.gitignore(29B)
----pdf2hocr(695B)
----plot.py(3KB)
----annotate.py(3KB)
----README.md(2KB)