【文件属性】:
文件名称:spider-blog:博客爬虫
文件大小:9KB
文件格式:ZIP
更新时间:2021-06-28 01:10:40
Python
简单爬虫
最近比较闲,爬些感兴趣的博文来看(python golang等)
关键字
因为blog网站自带搜索过滤关键字功能,所以省去了关键字匹配
python(可在url里替换)
来源
oschina
http://www.oschina.net/search?q=python&scope=blog&sort_by_time=1&p=1
csdn
http://blog.csdn.net/tag/details.html?tag=python&page=1
v2ex
http://www.v2ex.com/go/python?p=1
cnblogs
http://www.cnblogs.com/cate/python/#p1
终止条件
当遇到blog id已经存在时,说明后面的blog已经爬过,终止本次爬取,等待下次
配置
spider/etc/blog/default.json
data
【文件预览】:
spider-blog-master
----.gitignore(43B)
----spider()
--------etc()
--------settings.py(306B)
--------pu()
--------__init__.py(23B)
--------db.py(259B)
--------__main__.py(2KB)
--------spider.py(5KB)
--------path.py(181B)
----README.md(1KB)
----requirements.txt(28B)