fetcher:下载网站数据的工具

时间:2024-07-22 02:43:00
【文件属性】:

文件名称:fetcher:下载网站数据的工具

文件大小:5KB

文件格式:ZIP

更新时间:2024-07-22 02:43:00

Python

抓取器 用于从* Alexa 站点获取 HTML 文件的脚本。 方法 前 100 万个 Alexa 站点被下载、解压缩,并从中提取 URL。 注意:仅保留前 100,000 个站点供下载。 然后将 URL 馈送到 Python 脚本,该脚本使用进程池下载 HTML 文件及其 HTTP 标头(以最大程度地减少等待)。 错误报告到日志文件(如下)。 用法 如果您使用的是 Linux 或 OS X,只需运行./getData.sh就可以了。 如果您使用的是 Windows, 可能是您最好的选择。 如果您想获取 Alexa * HTML 以外的资源,您可以通过执行类似cat urls.txt | xargs -I % -n 1 -P64 ./downloadr.py download % webdevdata.org-2013-12-06-200358/ cat urls.txt |


【文件预览】:
fetcher-master
----.gitignore(28B)
----README.md(3KB)
----getData.sh(665B)
----.env(25B)
----LICENSE(1KB)
----requirements.txt(20B)
----downloadr.py(3KB)

网友评论