其实多进程相对来说不是特别适合用来做爬虫,因为多进程比较适用于计算密集型,而爬虫是IO密集型,因此多进程爬虫对速度的提升不是特别明显,但是将爬虫改为多进程比较简单,只需简单的几行代码即可搞定,所以在修改我的爬虫提升效率时,我最先实现的是多进程爬虫。(然而速度真心还是慢,我多线程+协程的程序跑的晚,却早已经结束工作了,多进程的还在苦战…)
下面我通过实例来进行介绍。
我爬取的数据是外文数据库的摘要信息,总共有几百万条记录,因此我首先将抓取得到的url列表文件进行分割,减小对内存的压力,免得全部加载占用内存过高(昨天看了关于迭代器的内容,感觉如果使用迭代器的话,效果会更好一点,减少很多内存压力,等我试水成功后再更新)。由于很多小伙伴可能没有访问外文数据库的权限,因此我在此不把url数据上传,对抓取的html页面进行分析的内容也不放上来。主要介绍如何改造原有代码为多进程爬虫。
#python2环境,3下差别不大
import requests
from bs4 import BeautifulSoup
import multiprocessing
import json
import datetime
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
path = sys.path[0] + '/data/'
多进程需要导入multiprocessing包。
def main():
f = open(path + 'springerThesissList.txt', 'r')
urlList = f.readlines()
pool = multiprocessing.Pool(3) #建立进程池,数字为你cpu的核数,括号内可以为空,程序会自动设定为cpu最大核数。
pool.map(getThesis, urllist) #将url传入getThesis函数
def getThesis(url):
"""this is your code of scrap the url"""
if __name__ == '__main__':
stime = datetime.datetime.now()
print stime
main()
etime = datetime.datetime.now()
print etime
print etime - stime
getThesis(url)函数为抓取url下内容的函数,可自定义。
通过main()函数中的短短两行代码,我们就可以将爬虫改造成多进程爬虫了,但是上面的方法有一个问题,就是得到的文件中会有这样一种情况:当前行的内容还未写入完毕,下一行的内容就已写入。原因是多进程是并发执行函数,你在进程池中设立的数目为3,则就有三个进程同时进行抓取,并访问文件写入数据,这样就会出现上面的问题。可以通过下面的方法进行解决。
def main():
listf = open(path + 'springerThesisList.txt', 'r')
urlList = listf.readlines()
pool = multiprocessing.Pool(3)
for url in urllist:
result = pool.apply_async(getThesis, (url, ), callback = jsonDump)
pool.close()
pool.join()
if result.successful():
print "successful"
jsonDump函数为我自定义的写入json数据的函数。此处将其作为回调函数对getThesis函数的返回结果进行处理。因此getThesis函数与之前的也略有不同,之前不需要该函数有返回值,但是在此处则需将其进行修改,在函数末尾加入一行代码,返回此函数抓取到的数据。因为在函数中我使用了try except来增强代码的容错性,因此返回值有可能为空,因此在jsonDump函数中,需要先判断dic是否为空。
outf = open(path + 'springerThesis.json', 'a')
def jsonDump(dic):
if dic:
json.dump(dic, outf, ensure_ascii=False)
outf.write('\n')
def getThesis(url):
"""this is your code of scrap the url"""
#×××
#×××
return dic
到此为止,基本上讲清楚了如何在爬虫中使用多进程。有问题欢迎评论交流。
接下来我会介绍如何在爬虫中使用多线程和协程来提高爬虫的速度。