文件名称:extracting_tables
文件大小:803KB
文件格式:ZIP
更新时间:2024-04-17 12:15:11
JupyterNotebook
客观的 使用DNN检测并找到页面内的表,然后解析该表以提取一个不会丢失任何信息和表结构的数据框。 输出应为包含提取表的excel文件。 作业3: 与其传递整个pdf书籍来解析表格,不如从pdf中提取单个页面并使用该单个页面来解析pdf,从而可以更好地提取表格。 总共提取了152个表,只有很少的错误表 解决方案和解释在Assign_2.ipynb中 输出存在于output_final.zip文件中 使用的替代方法: 对于使用的PDF,使用camelot库表数据提取非常糟糕。
【文件预览】:
extracting_tables-main
----assign_2.ipynb(3KB)
----output_final.zip(875KB)
----README.md(700B)