warp:使用YAML定义网页抓取工具

时间:2024-04-29 19:01:20
【文件属性】:

文件名称:warp:使用YAML定义网页抓取工具

文件大小:26KB

文件格式:ZIP

更新时间:2024-04-29 19:01:20

Python

Arboreal-Python中的特定领域语言 Arboreal是一个极简主义的库,它定义了可自定义的解析器和简单的树状结构指令的解释器。 它允许您通过为解析器提供一组操作来定义特定于域的语言。 可以将树形结构的指令视为一种“计算模板”,该模板可生成通过填充树形节点而获得的嵌套映射。 当心:这是正在进行的工作。 该文档不完整,并且尚未测试所有功能。 它有什么作用? 解释器将树状数据结构(一种域特定语言的表达式)作为输入。 对于指定如何填充自身的数据结构,此输入可以视为一种“计算模板”。 启发我进行此操作的示例是一个刮板,其定义为所导致的字典或JSON结构。例如,以下表达式(在YAML中)为荷兰新闻网站定义了一个刮板: nos=Fetch : _url : " https://www.nos.nl " html=Parse : news_items=


【文件预览】:
warp-master
----src()
--------arborial.py(9KB)
----examples()
--------headlines-csv.scraper(1KB)
--------headlines.scraper(1KB)
--------present.py(730B)
--------github.scraper(468B)
--------scraping.py(6KB)
----LICENSE(34KB)
----setup.cfg(622B)
----setup.py(38B)
----README.md(13KB)
----tests()
--------tests.py(3KB)
----.gitignore(1KB)
----pyproject.toml(105B)

网友评论