fetcher:下载网站数据的工具下载

【文件属性】：

文件名称：fetcher:下载网站数据的工具

文件大小：5KB

文件格式：ZIP

更新时间：2024-07-22 02:43:00

Python

抓取器用于从* Alexa 站点获取 HTML 文件的脚本。方法前 100 万个 Alexa 站点被下载、解压缩，并从中提取 URL。注意：仅保留前 100,000 个站点供下载。然后将 URL 馈送到 Python 脚本，该脚本使用进程池下载 HTML 文件及其 HTTP 标头（以最大程度地减少等待）。错误报告到日志文件（如下）。用法如果您使用的是 Linux 或 OS X，只需运行./getData.sh就可以了。如果您使用的是 Windows，可能是您最好的选择。如果您想获取 Alexa * HTML 以外的资源，您可以通过执行类似cat urls.txt | xargs -I % -n 1 -P64 ./downloadr.py download % webdevdata.org-2013-12-06-200358/ cat urls.txt |

立即下载

【文件预览】：
fetcher-master
----.gitignore(28B)
----README.md(3KB)
----getData.sh(665B)
----.env(25B)
----LICENSE(1KB)
----requirements.txt(20B)
----downloadr.py(3KB)

秒客网

fetcher:下载网站数据的工具

网友评论

相关文章