文件名称:spiderman:浏览器辅助的网络爬网探索
文件大小:9KB
文件格式:ZIP
更新时间:2024-06-04 09:25:06
Python
浏览器辅助的抓取 考虑归档网站的情况。 编写代码以弄清楚必须获取哪些辅助资源是一件很痛苦的事情。 浏览器已经使用各种执行引擎来做到这一点。 这里的想法是在浏览器和互联网之间使用来捕获流量,然后提供所捕获的流量。 经验表明,使用这种简单的方法可以收集和查看令人惊讶的忠实档案。 无头浏览器可用于自动执行部分归档过程。 或者,该项目包含一个插件,用于将JavaScript注入传递HTML页面中,以及一个小型命令和控制服务器,以驱动浏览器。 这也出奇地好。 用法 此程序包导出两个插件: from spiderman import Crawl, Serve 它们都为sqlite数据库提供路径,并为响应主体提供目录路径。 它们每个都以mitmproxy.flow.Flow为谓词。 对于Crawl ,此谓词确定是否应记录给定的流。 对于Serve ,此谓词确定是否仅应从本地商店提供给定流(而不通过
【文件预览】:
spiderman-master
----example()
--------crawl.py(542B)
--------driver.js(620B)
--------serve.py(307B)
----README.md(2KB)
----shell.nix(338B)
----spiderman()
--------cc_application.py(2KB)
--------addons()
--------__init__.py(0B)
--------storage.py(3KB)
--------normalize.py(2KB)
----.gitignore(17B)