文件名称:weixin_spider:微信蜘蛛
文件大小:109KB
文件格式:ZIP
更新时间:2024-04-15 18:45:08
HTML
微信公众号爬取 目的:爬取微信公众号中关于商品价格的图片 关键词:微信公众号联华超市价格图片 技术: Python selenium request Xpath Beautifulsoup正则就不要用了 要求: 爬取中商品价格图片 图片保存本地 暂时保存本地 本地建立层级目录,(爬取当天时间–公众号名称–商品价格图片) 只有第一次爬取为_全部爬取_,后续只爬取最新图片 代码中设置UserAgent和Sleep,防止反爬机制 取得一个公众号内全部内链目前只爬出来了单篇文章的全部图片链接 重建爬虫 将运行情况写入日志 使用cookie 配置一个config用来记录爬过的文章 图片转换方法 记得写异常报告,写入到log
【文件预览】:
weixin_spider-master
----README.md(846B)
----other()
--------weixin_spider_2.py(6KB)
--------step_test(58B)
--------test.py(523B)
--------qu_lian_jie.py(279B)
--------stream.webp(0B)
--------data.webp(0B)
--------weixin_spider.py(2KB)
--------data2.webp(0B)
--------Xpath路径(111B)
--------readme.md(666B)
--------te.html(111KB)
--------爬取图片.py(840B)
--------stream (2).bpm(54KB)
----refactor_weixinSpider.py(104B)
----weixin_spider_2.py(6KB)
----step_test(58B)
----test.py(523B)
----user_agent_list.py(4KB)
----weixin_spider.py(2KB)
----time_record.config(96B)
----Xpath路径(111B)
----get_user_agent.py(426B)
----爬取图片.py(840B)
----tes.html(6KB)
----logging_test.py(1KB)
----spider.py(10KB)
----wikiSpider()
--------scrapy.cfg(263B)
--------wikiSpider()
----logs()
--------log(62B)