文件名称:Python实现微博爬虫
文件大小:708KB
文件格式:RAR
更新时间:2019-05-31 04:36:23
Python 微博爬虫
使用Python实现微博爬虫 1. 需要爬取的页面URL存取在WeiboSpider/DataBase/UrlRecord.db, 该文件为sqlite数据库文件, URL数据会在爬取的过程中持续添加 2. 爬取的微博数据存放在WeiboSpider/WeiboData目录下, 每个用户单独一个数据文件 3. WeiboSpider/Config.txt文件记录了当前已经爬取的页面的ID, 设置为1则重新爬取 4. 运行WeiboSpider/Main.py即可运行爬虫 5. WeiboSpider/Main.py中的COOKIE你需要设置为你自己的COOKIE 6. 运行一段时间后可能你的IP会被封
【文件预览】:
WeiboSpider
----WeiboPage.py(9KB)
----Config.txt(25B)
----UrlRecord.py(1KB)
----WeiboData()
--------5-杨迪http###weibo.cn#qzss.txt(112KB)
--------6小咖秀APPhttp###weibo.cn#u#5582562907.txt(0B)
--------4-80后沈涛http###weibo.cn#ztvshentao.txt(238KB)
--------1-谢娜http###weibo.cn#xiena.txt(1.19MB)
--------6-小咖秀APPhttp###weibo.cn#u#5582562907.txt(0B)
--------2-陈辰的寻人启事http###weibo.cn#chensarah.txt(346KB)
--------3-微博支付http###weibo.cn#u#2850809427.txt(102KB)
--------ReadMe.txt(36B)
----Main.py(3KB)
----DataBase()
--------UrlRecord.db(47KB)
--------ReadMe.txt(38B)
----UrlRecord.pyc(2KB)
----WeiboPage.pyc(7KB)