【文件属性】:
文件名称:raspador:从半结构化文本文档中提取数据的库
文件大小:29KB
文件格式:ZIP
更新时间:2021-05-20 12:58:33
Python
拉斯帕多尔
从半结构化文本文档中提取数据的库。
它最适合于不具有正式结构且格式为纯文本(或易于转换)的文件中的数据处理。 XML,CSV和HTML等结构化文件不适合Raspador用例,并且有很好的替代方法来提取数据,例如 , , 和 。
提取程序通过类定义为模型,类似于Django ORM。 每个字段都搜索由正则表达式指定的模式,捕获的组会自动转换为基元。
解析器被实现为生成器,其中发现的每个项目都可以在分析结束之前使用流水线进行消耗。
该分析是仅向前的,这使其非常快速,因此可以分析返回字符串的任何迭代器,包括无限流。
安装
Raspador在CPython 2.7 +,CPython 3.4+和PyPy上工作。 要安装它,请使用:
pip install raspador
或易于安装:
easy_install raspador
从来源
从源下载并安装:
git cl
【文件预览】:
raspador-master
----MANIFEST.in(28B)
----README.rst(3KB)
----LICENSE.txt(1KB)
----HISTORY.rst(468B)
----raspador()
--------decorators.py(959B)
--------parser.py(5KB)
--------__init__.py(285B)
--------fields.py(8KB)
--------item.py(468B)
--------cache.py(566B)
----.travis.yml(150B)
----tox.ini(141B)
----requirements_dev.txt(10B)
----setup.cfg(74B)
----setup.py(1KB)
----docs()
--------source()
--------make.bat(7KB)
--------Makefile(7KB)
----tests()
--------test_parser.py(11KB)
--------test_fields.py(6KB)
--------__init__.py(0B)
--------test_decorators.py(2KB)
--------test_cache.py(1KB)
--------files()
----.gitignore(124B)
----.coveragerc(177B)