文件名称:spiders:抓取最新微信文章的网络爬虫
文件大小:63KB
文件格式:ZIP
更新时间:2024-05-30 12:35:30
HTML
spider 版本 v0.0.2 简介 用于抓取微信公众号最新文章生成xml文件 使用 git clone 使用命令行 python weixin_xml.py 或 python weixin_xml.py online 离线使用命令行 python weixin_xml.py offline python环境为2.7,依赖插件:BeautifulSoup, json(详见"weixin_xml.py源代码") 注: getHTML函数:请求URL函数成功时打印"加入页面:url" writeFile函数:写入html到指定文件 parselink函数:解析节点,寻找微信文章链接 wrapPageNode函数:用来获取搜狗搜索的微信号信息列表 dict_to_list函数:用来转换dict为list getArticleTitle函数:用来解析搜狗最新文章页面中js片段获取文章的标题和ur
【文件预览】:
spiders-master
----xml()
--------jaychoufanstuan.xml(23KB)
--------huxiu_com.xml(16KB)
--------zhihuribao.xml(15KB)
--------mop1025.xml(27KB)
----weixin_xml.py(6KB)
----message()
--------search.html(16KB)
--------article.json(37KB)
--------article.html(56KB)
----README.md(3KB)