deadurl_detector:python检测网站死链

时间:2024-06-01 01:10:05
【文件属性】:

文件名称:deadurl_detector:python检测网站死链

文件大小:4KB

文件格式:ZIP

更新时间:2024-06-01 01:10:05

Python

deadurl_detector ##要求: 设计一个系统,自动完成对于手机搜狐( )系统可靠性的检测。具体要求: 定时递归检测所有m.sohu.com域名的页面以及这些页面上的链接的可达性,即有没有出现不可访问情况。 m.sohu.com域名页面很多,从各个方面考虑性能优化。 对于错误的链接记录到日志中,日志包括:连接,时间,错误状态等。 考虑多线程的方式实现 ##解决方案: 获取链接 requests请求网页 re正则提取页面url url过滤 url去重 url是否含有特点域名 url是否相似 定时运行 由crontab实现 ##目前测试结果: 在特定域名(如:m.sohu.com)过滤情况下 如果判断url是否相似,一共能检测87个非相似链接 如果进行url去重,一共能检测4070个链接


【文件预览】:
deadurl_detector-master
----urlfilter.py(1KB)
----crawl.py(4KB)
----.gitignore(38B)
----requirement.txt(16B)
----README.md(871B)

网友评论