python_lesson2 多进程探索 (multiprocessing包)

时间:2021-03-28 22:18:13
进程池
进程池 (Process Pool)可以创建多个进程。这些进程就像是随时待命的士兵,准备执行任务(程序)。一个进程池中可以容纳多个待命的士兵。
 
 
 
import multiprocessing as mul

def f(x):
return x**2 pool = mul.Pool(5)
rel = pool.map(f,[1,2,3,4,5,6,7,8,9,10])
print(rel)
 
我们创建了一个容许5个进程的进程池 (Process Pool) 。Pool运行的每个进程都执行f()函数。我们利用map()方法,将f()函数作用到表的每个元素上。这与built-in的map()函数类似,只是这里用5个进程并行处理。如果进程运行结束后,还有需要处理的元素,那么的进程会被用于重新运行f()函数。除了map()方法外,Pool还有下面的常用方法。
apply_async(func,args)  从进程池中取出一个进程执行func,args为func的参数。它将返回一个AsyncResult的对象,你可以对该对象调用get()方法以获得结果。
close()  进程池不再创建新的进程
join()   wait进程池中的全部进程。必须对Pool先调用close()方法才能join。
 
 
 
 
 
练习
有下面一个文件download.txt。
python_lesson2  多进程探索 (multiprocessing包)
www.sina.com.cn www.163.com www.iciba.com www.cnblogs.com www.qq.com www.douban.com
python_lesson2  多进程探索 (multiprocessing包)
使用包含3个进程的进程池下载文件中网站的首页。(你可以使用subprocess调用wget或者curl等下载工具执行具体的下载任务)
 
import  multiprocessing as mul
import os
import subprocess
def f(x):
return x**2 pool = mul.Pool(5) rel = pool.map(f,[1,2,3,4,5,6,7,8,9,10]) #print(rel) with open ('download.txt', 'r') as f:
#print(f.read())
for i in f.readlines():
os.environ['i'] = str(i)
print(i) subprocess.call('wget $i',shell=True)
 
 
 
共享内存
 
# modified from official documentation
import multiprocessing def f(n, a):
n.value = 3.14
a[0] = 5 num = multiprocessing.Value('d', 0.0)
arr = multiprocessing.Array('i', range(10)) p = multiprocessing.Process(target=f,args=(num,arr))
p.start()
p.join() print(num.value)
print(arr[:])
 
 
 
3.14
[5, 1, 2, 3, 4, 5, 6, 7, 8, 9]
这里我们实际上只有主进程和Process对象代表的进程。我们在主进程的内存空间中创建共享的内存,也就是Value和Array两个对象。对象Value被设置成为双精度数(d), 并初始化为0.0。而Array则类似于C中的数组,有固定的类型(i, 也就是整数)。在Process进程中,我们修改了Value和Array对象。回到主程序,打印出结果,主程序也看到了两个对象的改变,说明资源确实在两个进程之间共享。
 
 
 
import multiprocessing

def f(x, arr, l):
x.value = 3.14
arr[0] = 5
l.append('Hello') server = multiprocessing.Manager()
x = server.Value('d', 0.0)
arr = server.Array('i', range(10))
l = server.list() proc = multiprocessing.Process(target=f, args=(x, arr, l))
proc.start()
proc.join() print(x.value)
print(arr)
print(l)
 
3.14
array('i', [5, 1, 2, 3, 4, 5, 6, 7, 8, 9])
['Hello']
 
Manager利用list()方法提供了表的共享方式。实际上你可以利用dict()来共享词典,Lock()来共享threading.Lock(注意,我们共享的是threading.Lock,而不是进程的mutiprocessing.Lock。后者本身已经实现了进程共享)等。 这样Manager就允许我们共享更多样的对象。
 
我们在这里不深入讲解Manager在远程情况下的应用。有机会的话,会在网络应用中进一步探索。