手动爬虫之糗事百科(ptyhon3)

时间:2025-01-13 11:03:45

一、调用封装的Url_ProxyHelper类,源码如下

 import urllib.request as ur

 class Url_ProxyHelper:
def __init__(self, url, proxy_add, savepath=None):
self.url = url
self.proxy_add = proxy_add
self.req = None
self.proxy = None
self.opener = None
self.info = None
self.save_path = savepath # 报头代理设置
def set_UrlAndProxy(self):
# 添加报头
self.req = ur.Request(self.url)
self.req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0') # 设置代理服务器
self.proxy = ur.ProxyHandler({'http': self.proxy_add})
self.opener = ur.build_opener(self.proxy, ur.HTTPHandler)
ur.install_opener(self.opener)
return self.req # 数据存档
def save_InFile(self):
self.req = self.set_UrlAndProxy()
self.info = ur.urlopen(self.req).read()
open(self.save_path, 'wb').write(self.info) # 数据返回
def feedbak_info(self):
self.req = self.set_UrlAndProxy()
self.info = ur.urlopen(self.req).read().decode('utf-8') # decode()用来解码,特别是中文
return str(self.info)

二、爬取源码

 import urllib.request as ur
import re
from Url_ProxyHelper import Url_ProxyHelper # 构造了一个去除Tags的函数
def delete_Tags(content, pattern):
return re.sub(pattern, "", content.replace("\n", "")) # 设置目标网址
url = ur.quote("https://www.qiushibaike.com/", safe='/:?=', encoding='utf-8')
# 设置代理服务器IP
proxy_add = "114.239.147.6:808" # 调用Url_ProxyHelper类
uph = Url_ProxyHelper(url, proxy_add)
info = uph.feedbak_info() # 设置正则表达式
pattern_1 = 'target="_blank" title="(.*?)">'
pattern_2 = 'class="content">(.*?)</div>'
pattern_3 = '<(.*?)>' # 匹配数据
user_list = re.compile(pattern=pattern_1, flags=re.S).findall(info)
content_list = re.compile(pattern=pattern_2, flags=re.S).findall(info) for user, content in zip(user_list, content_list):
data = {
"user": user,
"content": delete_Tags(content, pattern_3)
}
print("用户是:" + data["user"])
print("内容是:" + data["content"])

三、一点总结

1.关于urllib.request.urlopen("www.x.com").read()是否调用decode("utf-8")。
答:一般而言,当我们抓取一个页面需要将该信息存档(如存为x.html文件)时,这个时候不能调用decode()函数;而当我们需要读取页面的信息时(这里指的是抓取页面部分内容),存在信息的转码,所以这个时候需要调用decode()函数。

2.在正则表达式的使用过程中,需要注意,re.compile(pattern).findall(info)中的info必须是str类型,所有当出现报错时,需要稍微转换一下。

3.正则表达式中,re.compile(pattern=pattern, flags=re.S)的第二个参数的使用,模式修正,防止有用信息被过滤掉。

4.函数的构建必须放在函数调用之前。