tabula-py:tabula-java的简单包装:将表从PDF提取到pandas DataFrame中

时间:2024-03-18 10:52:53
【文件属性】:

文件名称:tabula-py:tabula-java的简单包装:将表从PDF提取到pandas DataFrame中

文件大小:11.58MB

文件格式:ZIP

更新时间:2024-03-18 10:52:53

python pdf pandas tabula tabula-java

表格 tabula-py是的简单Python包装器,可以读取PDF中的表。 您可以从PDF中读取表格并将其转换为pandas DataFrame。 tabula-py还使您可以将PDF文件转换为CSV,TSV或JSON文件。 您可以查看,然后在Google Colab上试用该,或者强烈建议您阅读尤其是“常见问题解答”部分。 要求 Java 8+ Python 3.6+ 作业系统 我确认可以在macOS和Ubuntu上工作。 但是有人确认它可以在Windows 10上运行。有关Windows 10 另请参见。 用法 如果您遇到问题,会有所帮助 安装 确保您具有Java运行时,并为其设置PATH。 pip install tabula-py 例子 tabula-py使您可以将PDF中的表提取到DataFrame或JSON中。 它还可以从PDF提取表并将文件另存为CSV,TSV或JSON


网友评论