可悲的我一直以为copy模块是用C写的,有时候需要深入了解deepcopy,文档描述的实在太简单,还是不知所云。
比如说最近看sqlmap源码中AttribDict的_deepcopy__有些疑惑,
def __deepcopy__(self, memo):这个memo是啥玩意,为啥要id(self),如果是统一都是id,直接传个self,copy内部做id的操作不是更简单。
retVal = self.__class__()
memo[id(self)] = retVal
for attr in dir(self):
if not attr.startswith('_'):
value = getattr(self, attr)
if not isinstance(value, (types.BuiltinFunctionType, types.BuiltinFunctionType, types.FunctionType, types.MethodType)):
setattr(retVal, attr, copy.deepcopy(value, memo))
for key, value in self.items():
retVal.__setitem__(key, copy.deepcopy(value, memo))
return retVal
第二个问题我们自己思考一下就可以解决,用id肯定是为了唯一识别,如果把self传过去,很危险。因为你压根不知道内部将对self做什么操作,也许你会疑惑是否对self本身有危害吗?这也符合传递参数最小原则。
copy.py开头的doc非常不错,简要翻译一下:
主要接口:
import copyx=copy.copy(y) #对y的浅拷贝x=copy.deepcopy(y) #对y的深拷贝如果copy模块出错,将抛出copy.Error异常
浅复制和深复制的不同仅仅是对组合对象来说,所谓的组合对象就是包含了其它对象的对象,如列表,类实例。
--浅拷贝将构造一个新的组合对象,然后将所包含的对象直接插入到新的组合对象中
--深拷贝讲构造一个新的组合对象,然后递归的拷贝所包含的对象并插入到新的组合对象中
深拷贝存在两个浅拷贝没有的问题:
a) 递归拷贝对象(组合对象可能直接或间接的包含自己的引用)可能导致循环拷贝
b)由于深拷贝将拷贝所有,可能导致拷贝太多,如可能共享一些数据结构
Python通过下面方法解决上面的问题:
a) 保存一个已经拷贝的对象表
b) 允许用户在类中自定义拷贝操作
copy模块不拷贝如下类型:module,class ,function,method,stack trace,stack frame,file,socket,window,array或相似类型。
我们可以看看deepcopy是如何避免死循环的,
def deepcopy(x, memo=None, _nil=[]): """Deep copy operation on arbitrary Python objects. See the module's __doc__ string for more info. """ if memo is None: memo = {} d = id(x) y = memo.get(d, _nil) #查看是否已经拷贝,避免拷贝死循环 if y is not _nil: return y
正如我们所看到的,meno的确是以对象的id为key的,所以对文章开头所说的也就不足为奇了。
我们先看看浅拷贝的操作:
def _copy_immutable(x): #浅拷贝不可变对象,返回自己 return xfor t in (type(None), int, long, float, bool, str, tuple, frozenset, type, xrange, types.ClassType, types.BuiltinFunctionType, type(Ellipsis), types.FunctionType, weakref.ref): d[t] = _copy_immutabledef _copy_with_constructor(x): #拷贝可变对象,需要重新创建一个新的对象 return type(x)(x) # type(1)其实就是intfor t in (list, dict, set): d[t] = _copy_with_constructor浅拷贝操作比较简单,根据需要拷贝的类型,调用对应的方法。唯一需要注意的就是type的用法。
再来看看深拷贝操作,需要重点关注tuple:
def _deepcopy_atomic(x, memo): #深拷贝区分是否可分,也就是是否是组合对象,和钱拷贝区分维度上有异 return x #对非组合对象(原子对象)就是返回自己d[type(None)] = _deepcopy_atomicd[type(Ellipsis)] = _deepcopy_atomicd[int] = _deepcopy_atomicd[long] = _deepcopy_atomicd[float] = _deepcopy_atomicd[bool] = _deepcopy_atomicdef _deepcopy_list(x, memo): """由于列表是可变对象,所以列表的深拷贝就是对所包含的所有元素进行深拷贝可以和下面元组进行对比,更好的理解可变与不可变""" y = [] memo[id(x)] = y for a in x: y.append(deepcopy(a, memo)) return yd[list] = _deepcopy_listdef _deepcopy_tuple(x, memo):"""因为元组是不可变对象,所以处理有些特殊我们先看看元组的deepcopy1.都是不可变对象In [48]: t1=(1,(2,3),'s')In [49]: t2=copy.deepcopy(t1)In [50]: id(t1),id(t2) #t1就是t2Out[50]: (43829008, 43829008)2.包含可变对象In [51]: t1=(1,[2,3],'s')In [52]: t2=copy.deepcopy(t1)In [53]: id(t1),id(t2) #t1和t2是不同的Out[53]: (43828528, 43828968)""" y = [] for a in x: #?为什么不在位置1做这个操作 y.append(deepcopy(a, memo)) d = id(x) try: return memo[d] except KeyError: pass ##位置1 for i in range(len(x)): if x[i] is not y[i]: #不等也就是说该元组包含可变对象 y = tuple(y) #使用元组构造函数重新生成 break else: #没有break,说明该元组都是不可变对象,不需要重新生成 y = x memo[d] = y return yd[tuple] = _deepcopy_tupledef _deepcopy_dict(x, memo): y = {} memo[id(x)] = y for key, value in x.iteritems(): #字典key,value都需要深拷贝 y[deepcopy(key, memo)] = deepcopy(value, memo) return yd[dict] = _deepcopy_dict