文件名称:spider_python:爬爬爬
文件大小:7KB
文件格式:ZIP
更新时间:2024-07-20 11:45:12
Python
spider_python ##概述 抓取北邮人论坛和水木社区校招信息的爬虫程序。 新增手机短信通知功能,需要在conf.py里配置139手机号,发件箱账号和密码。(短信通知功能也可作为邮件通知功能)。 不支持Python3。 ##策略 ###爬虫爬取 爬取模块默认每1小时运行1次,同时抓取web_urls和current_message_urls。每爬取10次清空所有数据。 ###发送短信 发短信模块默认每10分钟扫描一次current_message_urls,不为空才会发短信。发送成功后会把current_message_urls合并到outdated_message_urls中,并清空current_message_urls。 ###关键词筛选 在conf.py里根据自己的兴趣定制筛选的关键词,抓取你想要的信息: WEB_FILTER_XXX_KEYS是针对Web页面抓取的关键词
【文件预览】:
spider_python-master
----conf.py.sample(3KB)
----main.py(8KB)
----README.md(4KB)
----.gitignore(339B)