pdf4py:用Python 3编写的没有外部依赖关系的PDF解析器

时间:2024-04-02 00:08:01
【文件属性】:

文件名称:pdf4py:用Python 3编写的没有外部依赖关系的PDF解析器

文件大小:11.17MB

文件格式:ZIP

更新时间:2024-04-02 00:08:01

python pdf parser information-extraction pdf-parsing

pdf4py 用Python 3编写的PDF解析器,没有外部依赖关系。 软件包pdf4py允许用户通过访问其原子组件即PDF对象,以非常低的级别和非常灵活的方式来分析PDF文件。 所有这些都通过一个非常简单的API进行,可用于构建更高级别的功能(例如,文本和/或图像提取)。 特别是,它定义了Parser类,该类读取PDF文档的交叉引用表,并使用其条目使用户能够在文件中定位PDF对象,并将其解析为合适的Python对象。 免责声明:该软件包尚未达到稳定版本(> = 1.0.0)。 尽管解析器API非常简单,但它可能会突然从一个发行版更改为下一个发行版。 所有重大更改都将在发行说明中正确通知。 快速示例 这是有关如何使用pdf4py的快速演示。 您可以在找到更多信息。 >> > from pdf4py . parser import Parser >> > fp = open ( 't


【文件预览】:
pdf4py-master
----TODO.md(1KB)
----.travis.yml(241B)
----LICENSE(1KB)
----pdf4py()
--------exceptions.py(559B)
--------_decoders.py(6KB)
--------_charset.py(2KB)
--------_document.py(1KB)
--------parser.py(30KB)
--------_security()
--------__init__.py(0B)
--------types.py(3KB)
--------_lexer.py(21KB)
----setup.py(699B)
----README.md(5KB)
----docs()
--------source()
--------make.bat(799B)
--------Makefile(638B)
----tests()
--------encrypted_pdfs()
--------decoders_unit_tests.py(801B)
--------functional_tests.py(3KB)
--------aes_unit_tests.py(6KB)
--------__init__.py(91B)
--------__main__.py(220B)
--------unit_tests.py(11KB)
--------decrypt_unit_tests.py(2KB)
--------pdfs()
--------context.py(651B)
----.gitignore(58B)

网友评论