python爬取网页的通用代码框架

python爬取网页的通用代码框架：

def getHTMLText(url):#参数code缺省值为‘utf-8’(编码方式)

    try:

        r=requests.get(url,timeout=30)

        r.raise_for_status() #如果状态不是200,也就是返回的内容不是正常的数据，引发HTTPError异常

        r.encoding=r.apparent_encoding

        return r.text   #返回网页的内容

    except:

        return '产生异常'   #如果网页有问题，则触发异常，并返回产生异常

其中的核心代码是：r.raise_for_status()。它用于判断请求返回的状态信息时候是200，如果是200，则不会触发异常；如果不是200，也就是返回的内容不是正常的数据或者没有得到请求的数据，内会触发异常。

秒客网

python爬取网页的通用代码框架

相关文章