Selenium模拟浏览器抓取淘宝美食信息

前言：

无意中在网上发现了静觅大神（崔老师），又无意中发现自己硬盘里有静觅大神录制的视频，于是乎看了其中一个，可以说是非常牛逼了，让我这个用urllib，requests用了那么久的小白，体会到selenium的神奇之处，关键是虽然对小白来说信息量很大，但是讲得特别清楚，不亚于培训班哈哈哈哈。接下来言归正传。

使用Selenium模拟浏览器抓取淘宝美食信息并保存到MongoDB数据库，流程如下：

1、利用Selenium驱动浏览器搜索关键字，得到查询后的商品列表。

2、得到商品页码数，模拟翻页，得到后续页面的商品列表。

3、利用PyQuery分析源码，解析得到商品列表。

4、将商品列表信息存储到数据库MongoDB。

环境：

win64位系统，python3.6,IDE为pycharm，已经安装MongoDB数据库，Selenium，chrome63版本以及chromedriver2.34版本。

预备知识：

首先就是selenium。。（本人还不会啊，要赶紧学了！），然后要会用CSS选择器，pyquery库（抓网页信息很好用），re正则表达式（必须会），以及MongoDB数据库等等。

代码：

这里需要pycharm在目录下新建一个项目，然后建两个py文件，一个是spider爬虫，另一个是config用来放MongoDB的一些信息，先是spider

from selenium import webdriver

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.common.by import By

from selenium.common.exceptions import TimeoutException

import regex as re

from pyquery import PyQuery as pq

from config import *

import pymongo

client = pymongo.MongoClient(MONGO_URL)

db = client[MONGO_DB]

browser = webdriver.Chrome()

#browser = webdriver.Chrome(service_args=['--ignore-ssl-errors=true', '--ssl-protocol=TLSv1'])

wait = WebDriverWait(browser,10)

def search():

    try:

        browser.get('https://www.taobao.com')

        input = wait.until(

            EC.presence_of_element_located((By.CSS_SELECTOR,'#q'))

        )

        submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,'#J_TSearchForm > div.search-button > button')))

        input.send_keys('美食')

        submit.click()

        total = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#mainsrp-pager > div > div > div > div.total')))

        get_products()

        return total.text

    except TimeoutException:

        return search()

def next_page(page_number):

    try:

        input = wait.until(

            EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > input'))

        )

        submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit')))

        input.clear()

        input.send_keys(page_number)

        submit.click()

        wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR,'#mainsrp-pager > div > div > div > ul > li.item.active > span'),str(page_number)))

        get_products()

    except TimeoutException:

        next_page(page_number)

def get_products():

    wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#mainsrp-itemlist .items .item')))

    html = browser.page_source

    doc = pq(html)

    items = doc('#mainsrp-itemlist .items .item').items()

    for item in items:

        product = {

            'image': item.find('.pic .img').attr('src'),

            'price':item.find('.price').text(),

            'deal':item.find('.deal-cnt').text()[:-3],

            'title':item.find('.title').text(),

            'shop':item.find('.shop').text(),

            'location':item.find('.location').text()

        }

        print(product)

        save_to_mongo(product)

def save_to_mongo(result):

    try:

        if db[MONGO_TABLE].insert(result):

            print('存储成功',result)

    except Exception:

        print('存储失败',result)

def main():

    total = search()

    total = int(re.findall('(\d+)',total)[0])

    #print(total)

    for i in range(2,total+1):

        next_page(i)

if __name__ == '__main__':

    main()

然后是config

MONGO_URL = 'localhost'

MONGO_DB = 'taobao'

MONGO_TABLE = 'product'

先放着，等入门selenium之后再来注释，另外还可以用PhantomJS来代替Chrome，之后也会学习并且修改代码

Selenium模拟浏览器抓取淘宝美食信息的更多相关文章

使用selenium模拟浏览器抓取淘宝信息
通过Selenium模拟浏览器抓取淘宝商品美食信息,并存储到MongoDB数据库中. from selenium import webdriver from selenium.common.excep ...
3&period;使用Selenium模拟浏览器抓取淘宝商品美食信息
# 使用selenium+phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏览器翻页,并 ...
Python爬虫学习==&gt&semi;第十二章：使用 Selenium 模拟浏览器抓取淘宝商品美食信息
学习目的: selenium目前版本已经到了3代目,你想加薪,就跟面试官扯这个,你赢了,工资就到位了,加上一个脚本的应用,结局你懂的正式步骤需求背景:抓取淘宝美食 Step1:流程分析搜索关键字 ...
16-使用Selenium模拟浏览器抓取淘宝商品美食信息
淘宝由于含有很多请求参数和加密参数,如果直接分析ajax会非常繁琐,selenium自动化测试工具可以驱动浏览器自动完成一些操作,如模拟点击.输入.下拉等,这样我们只需要关心操作而不需要关心后台发生了 ...
使用Selenium模拟浏览器抓取淘宝商品美食信息
代码: import re from selenium import webdriver from selenium.webdriver.common.by import By from seleni ...
爬虫实战--使用Selenium模拟浏览器抓取淘宝商品美食信息
from selenium import webdriver from selenium.webdriver.common.by import By from selenium.common.exce ...
关于爬虫的日常复习（10）—— 实战：使用selenium模拟浏览器爬取淘宝美食
Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
使用Selenium模拟浏览器抓取斗鱼直播间信息
获取斗鱼直播间每个房间的名称.观看人数.tag.主播名字代码: import time from multiprocessing import Pool from selenium import w ...

随机推荐

jQuery的ajax中return语句无法返回值
今天在做一个新需求的时候,用到jQuery的ajax来返回一个查询结果: 但是调用这个方法的时候,data有数据,调用的地方获取到的却一直都是undefined,在网上搜索了一些资料,找到了问题所在, ...
iBatis + SQL Server 项目开发实战小结
几年前跟随项目经理做的一个ERP小项目,自己业余时间整理的开发手册,供参考. 开发环境配置:编程环境为Microsoft Visual Studio 2010,数据库是SQL Server 2008 ...
javascript/jquery 常见功能实现(持续更新&period;&period;&period;)
1. input 只能输入整数数字和字母 $(document).on('keyup','#no',function(){ var val = $.trim($(this).val()); if(va ...
SQL学习笔记——SQL初入门，Ubuntu下MySQL的安装
刚开始接触sql,于是准备在Ubuntu下学习sql,就跟着itercast的sql教程开始入门了. 下面只是我个人的记录,高手请绕道: 一. 在安装之前,我们可以用下面这个命令通过开放端 ...
ILMerge 简单使用
ILMerge是合并.net的assembly的工具,最新版的支持.net 4.0的ILmerge下载: http://www.microsoft.com/downloads/details.aspx ...
CSS 选择器参考手册
CSS3 选择器在 CSS 中,选择器是一种模式,用于选择需要添加样式的元素. "CSS" 列指示该属性是在哪个 CSS 版本中定义的.(CSS1.CSS2 还是 CSS3.) ...
windows压缩图片
提取Jar2Exe源代码，JavaAgent监控法
最近遇见一个麻烦,明明知道是java写的小软件,但是打包成了exe,木得办法,之前打包的都有缓存能在TEMP文件夹找到.这次可不一样了,特此记录一下. 为此特地搜集了一些java打包成exe的软件. ...
Error updating database&period; Cause&colon; java&period;sql&period;SQLException&colon; Access denied for user &&num;39&semi;&dollar;{username}&&num;39&semi;&commat;&&num;39&semi;localhost&&num;39&semi; (using password&colon; YES)
导入别人的项目,出现一个错误,经过排查,是db.properties配置文件中的用户名与Mybatis-conf.xml配置文件中调用的用户名不一致所导致的 (db.properties中用的是nam ...
Vue SSR配合Java的Javascript引擎j2v8实现服务端渲染1概述
原文地址 http://www.terwergreen.com/post/vue-ssr-j2v8-1.html 初步实现方案探索(Node环境) // 第 1 步:创建一个 Vue 实例 const ...