raspador:从半结构化文本文档中提取数据的库

时间:2024-06-09 06:45:13
【文件属性】:

文件名称:raspador:从半结构化文本文档中提取数据的库

文件大小:29KB

文件格式:ZIP

更新时间:2024-06-09 06:45:13

Python

拉斯帕多尔 从半结构化文本文档中提取数据的库。 它最适合于不具有正式结构且格式为纯文本(或易于转换)的文件中的数据处理。 XML,CSV和HTML等结构化文件不适合Raspador用例,并且有很好的替代方法来提取数据,例如 , , 和 。 提取程序通过类定义为模型,类似于Django ORM。 每个字段都搜索由正则表达式指定的模式,捕获的组会自动转换为基元。 解析器被实现为生成器,其中发现的每个项目都可以在分析结束之前使用流水线进行消耗。 该分析是仅向前的,这使其非常快速,因此可以分析返回字符串的任何迭代器,包括无限流。 安装 Raspador在CPython 2.7 +,CPython 3.4+和PyPy上工作。 要安装它,请使用: pip install raspador 或易于安装: easy_install raspador 从来源 从源下载并安装: git cl


【文件预览】:
raspador-master
----MANIFEST.in(28B)
----README.rst(3KB)
----LICENSE.txt(1KB)
----HISTORY.rst(468B)
----raspador()
--------decorators.py(959B)
--------parser.py(5KB)
--------__init__.py(285B)
--------fields.py(8KB)
--------item.py(468B)
--------cache.py(566B)
----.travis.yml(150B)
----tox.ini(141B)
----requirements_dev.txt(10B)
----setup.cfg(74B)
----setup.py(1KB)
----docs()
--------source()
--------make.bat(7KB)
--------Makefile(7KB)
----tests()
--------test_parser.py(11KB)
--------test_fields.py(6KB)
--------__init__.py(0B)
--------test_decorators.py(2KB)
--------test_cache.py(1KB)
--------files()
----.gitignore(124B)
----.coveragerc(177B)

网友评论