spiderman:浏览器辅助的网络爬网探索下载

【文件属性】：

文件名称：spiderman:浏览器辅助的网络爬网探索

文件大小：9KB

文件格式：ZIP

更新时间：2024-06-04 09:25:06

Python

浏览器辅助的抓取考虑归档网站的情况。编写代码以弄清楚必须获取哪些辅助资源是一件很痛苦的事情。浏览器已经使用各种执行引擎来做到这一点。这里的想法是在浏览器和互联网之间使用来捕获流量，然后提供所捕获的流量。经验表明，使用这种简单的方法可以收集和查看令人惊讶的忠实档案。无头浏览器可用于自动执行部分归档过程。或者，该项目包含一个插件，用于将JavaScript注入传递HTML页面中，以及一个小型命令和控制服务器，以驱动浏览器。这也出奇地好。用法此程序包导出两个插件： from spiderman import Crawl, Serve 它们都为sqlite数据库提供路径，并为响应主体提供目录路径。它们每个都以mitmproxy.flow.Flow为谓词。对于Crawl ，此谓词确定是否应记录给定的流。对于Serve ，此谓词确定是否仅应从本地商店提供给定流（而不通过

立即下载

【文件预览】：
spiderman-master
----example()
--------crawl.py(542B)
--------driver.js(620B)
--------serve.py(307B)
----README.md(2KB)
----shell.nix(338B)
----spiderman()
--------cc_application.py(2KB)
--------addons()
--------__init__.py(0B)
--------storage.py(3KB)
--------normalize.py(2KB)
----.gitignore(17B)

秒客网

spiderman:浏览器辅助的网络爬网探索

网友评论

相关文章