文件名称:webcrawler
文件大小:21KB
文件格式:ZIP
更新时间:2024-03-28 21:21:11
Python
网络爬虫 这是一起被黑客入侵的网页下载器。 在项目蠕变出现一些问题后,功能被缩减。 从根本上讲,这应该仅通过遵循网站内的链接并下载页面来下载网站。 对于本地副本,可以尝试进行重新链接(即,将更改为/hello.html),但是在使用正则表达式一段时间后,决定放弃对此功能的支持。 。 如果您有想要本地复制但可以手动浏览的网站,则此项目很有用。 也许有一天我会决定为此制作一台小型服务器,以使其变得更好。 但是,这满足了我的用例,因此我要关闭该项目。 NeoWebcrawler是较新的版本。 它可以将绝对URL处理为链接。 但是,添加此功能破坏了重新链接(并导致放弃了对重新链接的支持)。 它在Python3中运行。 它具有其他可选参数来更改程序执行。 最值得注意的是, relink将尝试进行重新链接。 不要相信这一点。 NeoWebcrawler不保证重新链接支持。 坦白地说,我刚刚离开它,
【文件预览】:
webcrawler-main
----main.py(494B)
----WebCrawler.py(9KB)
----LICENSE(34KB)
----README.md(2KB)
----.gitignore(2KB)
----NeoWebCrawler.py(11KB)
----updateTLDs.py(433B)