1. 合并

可以将其理解为SQL中的JOIN操作，使用一个或多个键把多行数据结合在一起。

1.1. 简单合并

参数on表示合并依据的列,参数how表示用什么方式操作(默认是内连接)。

>>> frame1 = pd.DataFrame( {'id':['ball', 'pencil', 'pen', 'mug', 'ashtray'], 'color':['white', 'red', 'red', 'black', 'green'], 'brand':['OMG', 'ABC', 'ABC', 'POD', 'POD']} )
>>> frame1
  brand  color       id
0   OMG  white     ball
1   ABC    red   pencil
2   ABC    red      pen
3   POD  black      mug
4   POD  green  ashtray
>>> frame2 = pd.DataFrame( {'id':['pencil', 'pencil', 'ball', 'pen'], 'brand':['OMG', 'POD', 'ABC', 'POD']} )
>>> frame2
  brand      id
0   OMG  pencil
1   POD  pencil
2   ABC    ball
3   POD     pen
>>> frame2.columns = ['brand', 'nid']

可以指定左边用哪一列合并,右边用哪一列合并
>>> pd.merge(frame1, frame2, left_on='id', right_on='nid')
  brand_x  color      id brand_y     nid
0     OMG  white    ball     ABC    ball
1     ABC    red  pencil     OMG  pencil
2     ABC    red  pencil     POD  pencil
3     ABC    red     pen     POD     pen

根据多个列进行,并且以外连接方式合并
>>> frame2.columns = ['brand', 'id']
>>> pd.merge(frame1, frame2, on=['id', 'brand'], how='outer')
  brand  color       id
0   OMG  white     ball
1   ABC    red   pencil
2   ABC    red      pen
3   POD  black      mug
4   POD  green  ashtray
5   OMG    NaN   pencil
6   POD    NaN   pencil
7   ABC    NaN     ball
8   POD    NaN      pen

1.2. 根据索引合并

将left_index和right_index设为True
>>> pd.merge(frame1, frame2, right_index=True, left_index=True)
  brand_x  color    id_x brand_y    id_y
0     OMG  white    ball     OMG  pencil
1     ABC    red  pencil     POD  pencil
2     ABC    red     pen     ABC    ball
3     POD  black     mug     POD     pen

使用DataFrame()对象的join()函数进行合并,注意不能有重复的列名
>>> frame2.columns=['brand2', 'id2']
>>> frame1.join(frame2)
  brand  color       id brand2     id2
0   OMG  white     ball    OMG  pencil
1   ABC    red   pencil    POD  pencil
2   ABC    red      pen    ABC    ball
3   POD  black      mug    POD     pen
4   POD  green  ashtray    NaN     NaN

2. 拼接

2.1. NumPy的concatenate()函数

>>> array1 = np.arange(9).reshape((3,3))
>>> array2 = np.arange(9).reshape((3,3))+3
>>> array1
array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])
>>> array2
array([[ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])
>>> np.concatenate([array1,array2])
array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])
>>> np.concatenate([array1,array2], axis = 1)
array([[ 0,  1,  2,  3,  4,  5],
       [ 3,  4,  5,  6,  7,  8],
       [ 6,  7,  8,  9, 10, 11]])

2.2. Pandas的concat()函数

>>> ser1
1    0.105168
2    0.344241
3    0.798570
4    0.648794
dtype: float64
>>> ser2
5    0.161205
6    0.427794
7    0.813935
8    0.742369
dtype: float64
>>> pd.concat([ser1, ser2])
1    0.105168
2    0.344241
3    0.798570
4    0.648794
5    0.161205
6    0.427794
7    0.813935
8    0.742369
dtype: float64
>>> pd.concat([ser1, ser2], axis = 1)
0         1
1  0.105168       NaN
2  0.344241       NaN
3  0.798570       NaN
4  0.648794       NaN
5       NaN  0.161205
6       NaN  0.427794
7       NaN  0.813935
8       NaN  0.742369
由上面可以看出concat()默认选项是外连接.

指定为内连接
>>> ser3 = pd.Series(np.random.rand(4), index = [1,2,3,4])
>>> ser3
1    0.599582
2    0.123096
3    0.870401
4    0.635363
dtype: float64
>>> pd.concat([ser1, ser3], axis = 1, join = 'inner')
0         1
1  0.105168  0.599582
2  0.344241  0.123096
3  0.798570  0.870401
4  0.648794  0.635363

可以用keys参数可以创建等级索引,对列进行合并的话,keys会变成列名
>>> pd.concat([ser1, ser2], keys=['fir','sec'])
fir  1    0.105168
2    0.344241
3    0.798570
4    0.648794
sec  5    0.161205
6    0.427794
7    0.813935
8    0.742369
dtype: float64
>>> pd.concat([ser1, ser2], axis=1, keys=['fir','sec'])
        fir       sec
1  0.105168       NaN
2  0.344241       NaN
3  0.798570       NaN
4  0.648794       NaN
5       NaN  0.161205
6       NaN  0.427794
7       NaN  0.813935
8       NaN  0.742369

3. 组合

使用combine_first()函数。

>>> ser1 = pd.Series(np.random.rand(5), index = [1,2,3,4,5])
>>> ser2 = pd.Series(np.random.rand(5), index = [1,3,5,7,9])
>>> ser1
1    0.426299
2    0.732439
3    0.951809
4    0.955885
5    0.183026
dtype: float64
>>> ser2
1    0.981828
3    0.162136
5    0.364654
7    0.607903
9    0.345988
dtype: float64
>>> ser1.combine_first(ser2)
1    0.426299
2    0.732439
3    0.951809
4    0.955885
5    0.183026
7    0.607903
9    0.345988
dtype: float64
>>> ser2.combine_first(ser1)
1    0.981828
2    0.732439
3    0.162136
4    0.955885
5    0.364654
7    0.607903
9    0.345988
dtype: float64

部分合并使用切片
>>> ser1[:4].combine_first(ser2[:4])
1    0.426299
2    0.732439
3    0.951809
4    0.955885
5    0.364654
7    0.607903
dtype: float64

4. 轴向旋转

4.1. 按等级索引旋转

stack()：把列转换成行。

unstack()：把行转换成列。

>>> frame1 = pd.DataFrame(np.arange(9).reshape(3,3), index=['white', 'black', 'red'], columns=['ball', 'pen', 'pencil'])
>>> frame1
       ball  pen  pencil
white     0    1       2
black     3    4       5
red       6    7       8

>>> ser = frame1.stack()
>>> ser
white  ball      0
       pen       1
       pencil    2
black  ball      3
       pen       4
       pencil    5
red    ball      6
       pen       7
       pencil    8
dtype: int32

>>> ser = frame1.unstack()
>>> ser
ball    white    0
        black    3
        red      6
pen     white    1
        black    4
        red      7
pencil  white    2
        black    5
        red      8
dtype: int32

>>> ser.unstack(0)
       ball  pen  pencil
white     0    1       2
black     3    4       5
red       6    7       8
>>> ser.unstack(1)
        white  black  red
ball        0      3    6
pen         1      4    7
pencil      2      5    8
参数表示对第几层进行操作

4.2. 从"长"向"宽"旋转

有时候一类数据集各列都有数据项，每一列后面的数据和前面有重复，这类数据常为列表形式，将其称为长格式或栈格式。还有一种宽格式，可读性强，存储数据效率更高。因此有时候需要转换。

>>> longframe = pd.DataFrame( {'color':['white', 'white', 'white', 'red', 'red', 'red', 'black', 'black', 'black'], 'item':['ball','pen','mug','ball','pen','mug','ball','pen','mug'],'value':np.random.rand(9)} )
>>> longframe
   color  item     value
0  white  ball  0.657363
1  white   pen  0.209334
2  white   mug  0.878001
3    red  ball  0.674560
4    red   pen  0.278861
5    red   mug  0.393061
6  black  ball  0.956869
7  black   pen  0.217121
8  black   mug  0.611301

>>> wideframe = longframe.pivot('color', 'item')
>>> wideframe
          value                    
item       ball       mug       pen
color                              
black  0.956869  0.611301  0.217121
red    0.674560  0.393061  0.278861
white  0.657363  0.878001  0.209334

>>> longframe = pd.DataFrame( {'color':['white', 'white', 'white', 'red', 'red', 'red', 'black', 'black', 'black'], 'item':['ball','pen','mug','ball','pen','mug','ball','pen','mug'],'value':np.random.rand(9), 'game':np.arange(9)} )
>>> wideframe = longframe.pivot('color', 'item')
>>> wideframe
      game             value                    
item  ball mug pen      ball       mug       pen
color                                           
black    6   8   7  0.122732  0.820089  0.505179
red      3   5   4  0.314163  0.964050  0.670957
white    0   2   1  0.219532  0.665007  0.833881

使用pivot()函数指定两个键，第一个参数的列变成索引名，第二个参数的列变成列名。这样数据的可读性就很高了。

5. 数据转换

5.1. 删除重复元素

使用duplicated()可以获取哪些是重复的，使用drop_duplicates()能够删除重复元素。

>>> frame = pd.DataFrame({'color':['white', 'white', 'red', 'red', 'white'], 'value':[1,2,3,3,2]})
>>> frame
   color  value
0  white      1
1  white      2
2    red      3
3    red      3
4  white      2
>>> frame.duplicated()
0    False
1    False
2    False
3     True
4     True
dtype: bool
>>> frame[frame.duplicated()]
   color  value
3    red      3
4  white      2
>>> frame.drop_duplicates()
   color  value
0  white      1
1  white      2
2    red      3

5.2. 映射

5.2.1. 替换元素replace()

使用replace()可以替换元素。可以传入一个字典，键为旧元素，值为新元素。

>>> frame
   color  value
0  white      1
1  white      2
2    red      3
3    red      3
4  white      2
>>> mp = {'white': 'black', 'red': 'yellow'}
>>> frame.replace(mp)
    color  value
0   black      1
1   black      2
2  yellow      3
3  yellow      3
4   black      2
>>> frame.replace('white', 'black')
   color  value
0  black      1
1  black      2
2    red      3
3    red      3
4  black      2

5.2.2. 添加元素map()

使用map()可以从另外一个数据结构获取元素并将其添加到目标数据结构的列中。

>>> frame
   color  value
0  white      1
1  white      2
2    red      3
3    red      3
4  white      2
>>> dic = {'white':'pure', 'red':'ignite'}

>>> frame['live'] = frame['color'].map(dic)
>>> frame
   color  value    live
0  white      1    pure
1  white      2    pure
2    red      3  ignite
3    red      3  ignite
4  white      2    pure

5.2.3. 重命名轴索引rename()

使用rename()转换轴标签。

>>> frame
   color  value    live
0  white      1    pure
1  white      2    pure
2    red      3  ignite
3    red      3  ignite
4  white      2    pure
>>> newindex = {0:'zero', 3:'three'}
>>> newcolumns = {'color':'col', 'value':'val'}
>>> frame.rename(index = newindex, columns = newcolumns)
         col  val    live
zero   white    1    pure
1      white    2    pure
2        red    3  ignite
three    red    3  ignite
4      white    2    pure

# 如果要将原来的frame替换掉，设置inplace参数为True
>>> frame.rename(index = newindex, columns = newcolumns, inplace = True)
>>> frame
         col  val    live
zero   white    1    pure
1      white    2    pure
2        red    3  ignite
three    red    3  ignite
4      white    2    pure

6. 离散化和面元划分

6.1. cut()

cut()函数可以将一个数组中的数据切分成几个部分。

将数据分为几个部分，就称为几个面元。

cut(数据数组,面元数组)

>>> array = [3, 60, 43, 100, 52, 36, 37, 0, 80, 1000] # 数组
>>> bins = [0, 25, 50, 75, 100] # 切割成什么
>>> cat = pd.cut(array, bins)
>>> cat # cat是一个Categorical(类别型)类型
[(0, 25], (50, 75], (25, 50], (75, 100], (50, 75], (25, 50], (25, 50], NaN, (75, 100], NaN]
Categories (4, interval[int64]): [(0, 25] < (25, 50] < (50, 75] < (75, 100]]
>>> cat.codes # 数组原来的元素数据第几个面元
array([ 0,  2,  1,  3,  2,  1,  1, -1,  3, -1], dtype=int8)
>>> pd.value_counts(cat) # 每个面元有多少个元素
(25, 50]     3
(75, 100]    2
(50, 75]     2
(0, 25]      1
dtype: int64

还可以不指定面元的界限，直接传入一个整数参数，cut()会按照指定的数字，将元素划分为相应的几部分。

>>> pd.cut(array, 5)
[(-1.0, 200.0], (-1.0, 200.0], (-1.0, 200.0], (-1.0, 200.0], (-1.0, 200.0], (-1.0, 200.0], (-1.0, 200.0], (-1.0, 200.0], (-1.0, 200.0], (800.0, 1000.0]]
Categories (5, interval[float64]): [(-1.0, 200.0] < (200.0, 400.0] < (400.0, 600.0] < (600.0, 800.0] < (800.0, 1000.0]]

6.2. qcut()

cut()函数划分得到的面元，每个面元的数量不同。而qcut()可以保证每个面元的数量相同，且每个面元的区间大小不等。

>>> pd.qcut(array, 5)
[(-0.001, 29.4], (55.2, 84.0], (40.6, 55.2], (84.0, 1000.0], (40.6, 55.2], (29.4, 40.6], (29.4, 40.6], (-0.001, 29.4], (55.2, 84.0], (84.0, 1000.0]]
Categories (5, interval[float64]): [(-0.001, 29.4] < (29.4, 40.6] < (40.6, 55.2] < (55.2, 84.0] < (84.0, 1000.0]]
>>> cat = pd.qcut(array, 5)
>>> pd.value_counts(cat)
(84.0, 1000.0]    2
(55.2, 84.0]      2
(40.6, 55.2]      2
(29.4, 40.6]      2
(-0.001, 29.4]    2
dtype: int64

6.3. 异常值检测和过滤

使用any()函数可以对每一列应用筛选条件。

>>> frame = pd.DataFrame(np.random.randn(10, 3))
>>> frame
0         1         2
0 -0.466623 -0.180515 -1.632522
1  0.928587  1.478555 -1.170217
2  1.366825 -0.266165  0.307137
3  1.811664  0.155917 -1.847898
4 -0.451448  1.668134 -0.584497
5 -0.819943 -0.028708  1.119363
6  0.039233 -0.316006 -1.232731
7 -2.721860  0.369594  0.482038
8 -0.320213 -0.456954  1.305954
9 -0.159289 -1.138182  0.452671

>>> frame.describe()
0          1          2
count  10.000000  10.000000  10.000000
mean   -0.079307   0.128567  -0.280070
std     1.272859   0.861058   1.155481
min    -2.721860  -1.138182  -1.847898
25%    -0.462829  -0.303546  -1.217102
50%    -0.239751  -0.104611  -0.138680
75%     0.706248   0.316174   0.474696
max     1.811664   1.668134   1.305954

>>> (np.abs(frame) > frame.std())
0      1      2
0  False  False   True
1  False   True   True
2   True  False  False
3   True  False   True
4  False   True  False
5  False  False  False
6  False  False   True
7   True  False  False
8  False  False   True
9  False   True  False

>>> (np.abs(frame) > frame.std()).any(0) # 参数0和参数1分别是axis参数的值
0    True
1    True
2    True

>>> (np.abs(frame) > frame.std()).any(1)
0     True
1     True
2     True
3     True
4     True
5    False
6     True
7     True
8     True
9     True
dtype: bool

>>> frame[(np.abs(frame) > frame.std()).any(1)] # 第五行被筛选掉了
0         1         2
0 -0.466623 -0.180515 -1.632522
1  0.928587  1.478555 -1.170217
2  1.366825 -0.266165  0.307137
3  1.811664  0.155917 -1.847898
4 -0.451448  1.668134 -0.584497
6  0.039233 -0.316006 -1.232731
7 -2.721860  0.369594  0.482038
8 -0.320213 -0.456954  1.305954
9 -0.159289 -1.138182  0.452671

7. 排序

使用permutation()函数可以创建一个随机顺序的数组。

使用take()函数可以采用新的索引次序。

>>> frame = pd.DataFrame(np.arange(25).reshape(5,5))
>>> frame
0   1   2   3   4
0   0   1   2   3   4
1   5   6   7   8   9
2  10  11  12  13  14
3  15  16  17  18  19
4  20  21  22  23  24
>>> order = np.random.permutation(5)
>>> order
array([2, 4, 1, 0, 3])
>>> frame.take(order)
0   1   2   3   4
2  10  11  12  13  14
4  20  21  22  23  24
1   5   6   7   8   9
0   0   1   2   3   4
3  15  16  17  18  19

# 对部分操作
>>> frame.take([3, 4, 1])
0   1   2   3   4
3  15  16  17  18  19
4  20  21  22  23  24
1   5   6   7   8   9

随机取样

>>> len(frame) # frame的行数
5
>>> sample = np.random.randint(0, len(frame), size = 2) # 分别是取值下限，取值上限，和取值的个数
>>> sample
array([1, 1])
>>> frame.take(sample)
0  1  2  3  4
1  5  6  7  8  9
1  5  6  7  8  9

8. 字符串处理

join()

'拼接字符'.join(string数组)

>>> strings = ['a', 'b', 'd', 'e', 'F']
>>> strings
['a', 'b', 'd', 'e', 'F']
>>> ';'.join(strings)
'a;b;d;e;F'

split() 和 strip()

string.split('切割字符')

string.strip() 去掉多余的空白字符(包括换行)

>>> string = '233 , 546'
>>> string
'233 , \t546'
>>> string.split(',')
['233 ', ' \t546']

>>> for s in string.split(','):
...   print(s.strip())
... 
233
546

find(s) 和 count(s) 和 replace(s1, s2)

分别是找到子串的下标，子串出现了多少次，将s1替换为s2.
正则表达式

click here

9. 数据聚合

GroupBy 内部机制：SPLIT-APPLY-COMBINE(分组-用函数处理-合并结果)。

group[list1].groupby(list2)

list1表示要处理的数据的列名,list2表示根据哪些键(列名)处理。

>>> frame = pd.DataFrame( {'color': ['red', 'white', 'red', 'green', 'white'], 'object': ['pen', 'pencil', 'mug', 'ruler', 'pen'], 'price': [2, 3, 4, 1, 100]} )
>>> frame
   color  object  price
0    red     pen      2
1  white  pencil      3
2    red     mug      4
3  green   ruler      1
4  white     pen    100
>>> group = frame['price'].groupby(frame['color']) # 得到一个GroupBy对象
>>> group.groups
{'red': Int64Index([0, 2], dtype='int64'), 'green': Int64Index([3], dtype='int64'), 'white': Int64Index([1, 4], dtype='int64')}
>>> group.mean()
color
green     1.0
red       3.0
white    51.5
Name: price, dtype: float64
>>> group.sum()
color
green      1
red        6
white    103
Name: price, dtype: int64

agg()函数

还可以对组使用自定义函数，只需要使用agg(函数名)就行了。

>>> group = frame.groupby(frame['color'])
>>> def fun(series):
...   return series.max() - series.min()
... 
>>> group['price'].agg(fun)
color
green     0
red       2
white    97
Name: price, dtype: int64

transfrom()函数

>>> frame = pd.DataFrame( {'color':['white', 'red', 'green', 'white', 'green'], 'val1':[5,6,7,8,9], 'val2':[15,16,17,18,19]} )
>>> frame
   color  val1  val2
0  white     5    15
1    red     6    16
2  green     7    17
3  white     8    18
4  green     9    19
>>> frame.groupby('color').transform(np.sum) # 函数必须是一个聚合函数
   val1  val2
0    13    33
1     6    16
2    16    36
3    13    33
4    16    36

apply()函数

将键值分类再处理。

>>> frame['status'] = ['up', 'down', 'up', 'down', 'down']
>>> frame
   color  val1  val2 status
0  white     5    15     up
1    red     6    16   down
2  green     7    17     up
3  white     8    18   down
4  green     9    19   down
>>> frame.groupby(['color', 'status']).apply(lambda x: x.max())
              color  val1  val2 status
color status                          
green down    green     9    19   down
      up      green     7    17     up
red   down      red     6    16   down
white down    white     8    18   down
      up      white     5    15     up

秒客网

Python之Pandas库学习（三）：数据处理