python爬虫入门一:关于selenium,request的一些理解

时间:2024-03-22 13:07:46

python爬虫入门,从大白到小白

1.关于request,网上有很多爬取猫眼电影的例子,就不在赘述。

个人感觉这个更加适用于静态网页,即没有下拉窗口,不需要对界面进行操作。即,如下图所示,当出现图中红色圆圈和箭头所指的地方的时候,就不在适用了。

因为网页的源代码中如果没有选中该按钮,则网页源代码中的display == None,此时无法显示内容,则无法爬取相应信息。

python爬虫入门一:关于selenium,request的一些理解

 

2.关于selenium:即模拟人操作网页,可见即可爬取。,其会模拟人的操作去点开网页,去操作。

网上有很多关于selenium的操作,其中第一句都是打开一个浏览器,类似于下面这句话。

browser = webdriver.Chrome()

browser 现在就是你的浏览器啦,如下图所示

python爬虫入门一:关于selenium,request的一些理解

然后在进行网页操作,如进入一个网站:

browser.get('http://www.baidu.com')

python爬虫入门一:关于selenium,request的一些理解

此时的browser.page_source的源代码就是百度这个页面的源代码了。

如果进行其他点击按钮跳转网页的操作,这个broswer的源代码始终是你操作完了的那个网页的源代码。切记

 

附:关于python爬虫代码和相关书籍,请去我的百度云网盘上下载

python爬虫入门一:关于selenium,request的一些理解

链接:https://pan.baidu.com/s/1PHoWWpf5W7sjEf0Hyaoijg 
提取码:jxmr 

有什么问题讨论或者指正,欢迎在评论区或者发送邮件到[email protected]讨论