python网络爬虫day1

python爬虫真的很方便，自己不能忽视的问题就是字符编码的问题，一直想腾出时间来看，一直没有时间。明天开始看吧。

今天是学习python爬虫的第一天，从B站上搜到的，可惜可惜。

import  requests

def getHtmlText(url):

    try:

        r=requests.get(url,timeout=30)

        r.raise_for_status()

        r.encoding=r.apparent_encoding

        return  r.text

    except:

        return "产生异常"

url="http://baidu.com"

print(getHtmlText(url))

一开始的代码很简单，就是爬取百度的内容。百度做了反爬虫的处理，哈哈哈哈。

import requests

kv={'user-agent':"Mozilla/5.0"}

r=requests.get("https://www.amazon.cn/gp/product/B01M8L5Z3Y",headers=kv)

print(r.status_code)

print(r.text)

爬亚马逊，亚马逊对爬虫做了限制处理，直接爬取会出错，令爬虫模拟浏览器。

r=requests.get("https://www.amazon.cn/gp/product/B01M8L5Z3Y",headers=kv)

import requests

kv={"wd":'python'}

r=requests.get("https://www.baidu.com/s",params=kv)

print(r.status_code)

print(r.request.url)

爬取百度关键字的搜素内容，难度不大，使用params参数就行了。

秒客网

python网络爬虫day1

相关文章