[Python] Pandas 对数据进行查找、替换、筛选、排序、重复值和缺失值处理

时间:2024-01-28 14:02:42


查找和替换是日常工作中很常见的数据预处理操作,下面就来讲解如何使用pandas模块中的函数对DataFrame中的数据进行查找和替换。

1. 数据文件

产品统计表.7z

2. 读数据

import pandas as pd
data = pd.read_csv(\'D:\git\python\code\第5章\产品统计表.csv\')
print(data)

输出

     编号   产品  成本价(元/个)  销售价(元/个)  数量(个)  成本(元)  收入(元)  利润(元)
0  a001   背包        16        65     60    960   3900   2940
1  a002   钱包        90       187     50   4500   9350   4850
2  a003   背包        16        65     23    368   1495   1127
3  a004  手提包        36       147     26    936   3822   2886
4  a005   钱包        90       187     78   7020  14586   7566
5  a006  单肩包        58       124     63   3654   7812   4158
6  a007  单肩包        58       124     58   3364   7192   3828

3. 查找数据

>>> data.isin([\'钱包\',\'005\'])
      编号     产品  成本价(元/个)  销售价(元/个)  数量(个)  成本(元)  收入(元)  利润(元)
0  False  False     False     False  False  False  False  False
1  False   True     False     False  False  False  False  False
2  False  False     False     False  False  False  False  False
3  False  False     False     False  False  False  False  False
4  False   True     False     False  False  False  False  False
5  False  False     False     False  False  False  False  False
6  False  False     False     False  False  False  False  False
>>> data[\'产品\'].isin([\'手提包\'])
0    False
1    False
2    False
3     True
4    False
5    False
6    False
Name: 产品, dtype: bool

说明:

  1. 在整个数据表中查找是否有值“a005”和“钱包”,将等于“a005”或“钱包”的地方标记为True,将不等于“a005”或“钱包”的地方标记为False。需要注意的是,要查找的值必须以列表的形式给出。
  2. 判断数据表的某一列中是否有某个值。在“产品”列中查找值“手提包”,将等于“手提包”的地方标记为True,将不等于“手提包”的地方标记为False。

4. 替换数据

4.1 一对一替换

将数据表中的值“背包”全部替换为“挎包”。replace()函数括号中逗号前面的参数是需要替换的值,逗号后面的参数是替换后的值。
参数inplace默认是不对原表替换,设置为True则原表上替换。

>>> data.replace(\'背包\',\'挎包\', inplace=True)
>>> print(data)
     编号   产品  成本价(元/个)  销售价(元/个)  数量(个)  成本(元)  收入(元)  利润(元)
0  a001   挎包        16        65     60    960   3900   2940
1  a002   钱包        90       187     50   4500   9350   4850
2  a003   挎包        16        65     23    368   1495   1127
3  a004  手提包        36       147     26    936   3822   2886
4  a005   钱包        90       187     78   7020  14586   7566
5  a006  单肩包        58       124     63   3654   7812   4158
6  a007  单肩包        58       124     58   3364   7192   3828

4.2 多对一替换

>>> data.replace([\'背包\',\'手提包\'], \'挎包\')
     编号   产品  成本价(元/个)  销售价(元/个)  数量(个)  成本(元)  收入(元)  利润(元)
0  a001   挎包        16        65     60    960   3900   2940
1  a002   钱包        90       187     50   4500   9350   4850
2  a003   挎包        16        65     23    368   1495   1127
3  a004   挎包        36       147     26    936   3822   2886
4  a005   钱包        90       187     78   7020  14586   7566
5  a006  单肩包        58       124     63   3654   7812   4158
6  a007  单肩包        58       124     58   3364   7192   3828

4.3 多对多替换

多对多替换可以看成是多个一对一替换。

>>> data.replace({\'背包\':\'挎包\', 16:39, 65:68}, inplace=True)
>>> print(data)
     编号   产品  成本价(元/个)  销售价(元/个)  数量(个)  成本(元)  收入(元)  利润(元)
0  a001   挎包        39        68     60    960   3900   2940
1  a002   钱包        90       187     50   4500   9350   4850
2  a003   挎包        39        68     23    368   1495   1127
3  a004  手提包        36       147     26    936   3822   2886
4  a005   钱包        90       187     78   7020  14586   7566
5  a006  单肩包        58       124     63   3654   7812   4158
6  a007  单肩包        58       124     58   3364   7192   3828

5. 插入数据

pandas模块没有专门提供插入行的方法,因此,插入数据主要是指插入一列新的数据。常用的方法有两种:

  • 第一种是以赋值的方式在数据表的最右侧插入列数据;
  • 第二种是用insert()函数在数据表的指定位置插入列数据。
>>> data = pd.read_csv(\'D:\git\python\code\第5章\产品统计表.csv\')
>>> data[\'品牌\'] = [\'AM\',\'DE\',\'SR\',\'AM\',\'TY\',\'DE\',\'UD\']
>>> print(data)
     编号   产品  成本价(元/个)  销售价(元/个)  数量(个)  成本(元)  收入(元)  利润(元)  品牌
0  a001   背包        16        65     60    960   3900   2940  AM
1  a002   钱包        90       187     50   4500   9350   4850  DE
2  a003   背包        16        65     23    368   1495   1127  SR
3  a004  手提包        36       147     26    936   3822   2886  AM
4  a005   钱包        90       187     78   7020  14586   7566  TY
5  a006  单肩包        58       124     63   3654   7812   4158  DE
6  a007  单肩包        58       124     58   3364   7192   3828  UD
>>> data.insert(2, \'产地\', [\'北京\',\'深圳\',\'成都\',\'杭州\',\'上海\',\'重庆\',\'武汉\'])
>>> print(data)
     编号   产品  产地  成本价(元/个)  销售价(元/个)  数量(个)  成本(元)  收入(元)  利润(元)  品牌
0  a001   背包  北京        16        65     60    960   3900   2940  AM
1  a002   钱包  深圳        90       187     50   4500   9350   4850  DE
2  a003   背包  成都        16        65     23    368   1495   1127  SR
3  a004  手提包  杭州        36       147     26    936   3822   2886  AM
4  a005   钱包  上海        90       187     78   7020  14586   7566  TY
5  a006  单肩包  重庆        58       124     63   3654   7812   4158  DE
6  a007  单肩包  武汉        58       124     58   3364   7192   3828  UD

6. 删除数据

使用pandas模块中的drop()函数。该函数既可以删除指定的列,也可以删除指定的行。

6.1 删除列

在drop()函数中直接给出要删除的列的列标签就可以删除列。

>>> data.drop([\'成本价(元/个)\', \'成本(元)\'], axis=1)
     编号   产品  产地  销售价(元/个)  数量(个)  收入(元)  利润(元)  品牌
0  a001   背包  北京        65     60   3900   2940  AM
1  a002   钱包  深圳       187     50   9350   4850  DE
2  a003   背包  成都        65     23   1495   1127  SR
3  a004  手提包  杭州       147     26   3822   2886  AM
4  a005   钱包  上海       187     78  14586   7566  TY
5  a006  单肩包  重庆       124     63   7812   4158  DE
6  a007  单肩包  武汉       124     58   7192   3828  UD

drop()函数设置了两个参数:

  • 第1个参数以列表的形式给出要删除的行或列的标签;
  • 第2个参数axis用于设置按行删除还是按列删除;
    • 设置为0表示按行删除(即第1个参数中给出的标签是行标签);
    • 设置为1表示按列删除(即第1个参数中给出的标签是列标签)。
  • 还可以通过列序号来获取列标签,然后作为drop()函数的第1个参数使用。
# 这3个效果一样
data.drop(data.columns[[3,6]], axis=1)
data.drop([\'成本价(元/个)\', \'成本(元)\'], axis=1)
data.drop(columns=[\'成本价(元/个)\', \'成本(元)\'], axis=1)

6.2 删除行

删除行的方法和删除列的方法类似,都要用到drop()函数,只不过需要将参数axis设置为0,其缺省值是0,可以不设。

>>> data = pd.read_csv(\'D:\git\python\code\第5章\产品统计表.csv\', index_col=0)
>>> data.drop([\'a001\',\'a003\'], axis=0)
       产品  成本价(元/个)  销售价(元/个)  数量(个)  成本(元)  收入(元)  利润(元)
编号                                                       
a002   钱包        90       187     50   4500   9350   4850
a004  手提包        36       147     26    936   3822   2886
a005   钱包        90       187     78   7020  14586   7566
a006  单肩包        58       124     63   3654   7812   4158
a007  单肩包        58       124     58   3364   7192   3828

和删除列类似.

# 这3个效果一样,只不过在使用第2种时,读文件时,可以不用index-col参数
data.drop([\'a001\',\'a003\'], axis=0)
data.drop(data.index[[0,2]])
data.drop(index=[\'a001\',\'a003\'])

7. 处理缺失值

7.1 数据准备

产品统计表1.7z

7.2 查看缺失值

在Python中,缺失值一般用NaN表示。从运行结果可以看出,数据表的第3行和第7行含有缺失值。

>>> data = pd.read_csv(\'D:\git\python\code\第5章\产品统计表1.csv\')
>>> print(data)
     编号   产品  成本价(元/个)  销售价(元/个)  数量(个)   成本(元)  收入(元)  利润(元)
0  a001   背包      16.0        65     60   960.0   3900   2940
1  a002   钱包      90.0       187     50  4500.0   9350   4850
2  a003   背包       NaN        65     23   368.0   1495   1127
3  a004  手提包      36.0       147     26   936.0   3822   2886
4  a005   钱包      90.0       187     78  7020.0  14586   7566
5  a006  单肩包      58.0       124     63  3654.0   7812   4158
6  a007  单肩包      58.0       124     58     NaN   7192   3828

如果要查看每一列的缺失值情况,可以使用pandas模块中的info()函数。

>>> print(data.info())
<class \'pandas.core.frame.DataFrame\'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   编号        7 non-null      object 
 1   产品        7 non-null      object 
 2   成本价(元/个)  6 non-null      float64
 3   销售价(元/个)  7 non-null      int64  
 4   数量(个)     7 non-null      int64  
 5   成本(元)     6 non-null      float64
 6   收入(元)     7 non-null      int64  
 7   利润(元)     7 non-null      int64  
dtypes: float64(2), int64(4), object(2)
memory usage: 576.0+ bytes
None

从运行结果可以看出,“成本价(元/个)”列和“成本(元)”列都是“6 non-null”,表示这两列都有6个非空值,而其他列都有7个非空值,说明这两列各有1个空值(即缺失值)。

使用isnull()函数判断数据表中的哪个值是缺失值,并将缺失值标记为True,非缺失值标记为False。

>>> a = data.isnull()
>>> print(a)
      编号     产品  成本价(元/个)  销售价(元/个)  数量(个)  成本(元)  收入(元)  利润(元)
0  False  False     False     False  False  False  False  False
1  False  False     False     False  False  False  False  False
2  False  False      True     False  False  False  False  False
3  False  False     False     False  False  False  False  False
4  False  False     False     False  False  False  False  False
5  False  False     False     False  False  False  False  False
6  False  False     False     False  False   True  False  False

7.3 删除缺失值

使用dropna()函数可以删除数据表中含有缺失值的行。默认情况下,只要某一行中有缺失值,该函数就会把这一行删除。

>>> b = data.dropna()
>>> print(b)
     编号   产品  成本价(元/个)  销售价(元/个)  数量(个)   成本(元)  收入(元)  利润(元)
0  a001   背包      16.0        65     60   960.0   3900   2940
1  a002   钱包      90.0       187     50  4500.0   9350   4850
3  a004  手提包      36.0       147     26   936.0   3822   2886
4  a005   钱包      90.0       187     78  7020.0  14586   7566
5  a006  单肩包      58.0       124     63  3654.0   7812   4158

如果只想删除整行都为缺失值的行,则需要为dropna()函数设置参数how的值为\'all\'。

c = data.dropna(how=\'all\')
print(c)

7.4 缺失值的填充

使用fillna()函数可以将数据表中的所有缺失值填充为指定的值。

>>> d = data.fillna(0)
>>> print(d)
     编号   产品  成本价(元/个)  销售价(元/个)  数量(个)   成本(元)  收入(元)  利润(元)
0  a001   背包      16.0        65     60   960.0   3900   2940
1  a002   钱包      90.0       187     50  4500.0   9350   4850
2  a003   背包       0.0        65     23   368.0   1495   1127
3  a004  手提包      36.0       147     26   936.0   3822   2886
4  a005   钱包      90.0       187     78  7020.0  14586   7566
5  a006  单肩包      58.0       124     63  3654.0   7812   4158
6  a007  单肩包      58.0       124     58     0.0   7192   3828

可以通过为fillna()函数传入一个字典,为不同列中的缺失值设置不同的填充值。

>>> e = data.fillna({\'成本价(元/个)\': 16, \'成本(元)\': 3364})
>>> print(e)
     编号   产品  成本价(元/个)  销售价(元/个)  数量(个)   成本(元)  收入(元)  利润(元)
0  a001   背包      16.0        65     60   960.0   3900   2940
1  a002   钱包      90.0       187     50  4500.0   9350   4850
2  a003   背包      16.0        65     23   368.0   1495   1127
3  a004  手提包      36.0       147     26   936.0   3822   2886
4  a005   钱包      90.0       187     78  7020.0  14586   7566
5  a006  单肩包      58.0       124     63  3654.0   7812   4158
6  a007  单肩包      58.0       124     58  3364.0   7192   3828

8. 处理重复值

重复值的常用处理操作包括删除重复值和提取唯一值,前者可以使用drop_duplicates()函数来完成,后者可以使用unique()函数来完成。
数据文件:产品统计表2.7z

8.1 删除重复行

>>> data = pd.read_excel(\'D:\git\python\code\第5章\产品统计表2.xlsx\')
>>> data = data.dropna(how=\'all\')
>>> print(data)
     编号   产品  成本价(元/个)  销售价(元/个)  数量(个)   成本(元)    收入(元)   利润(元)
0  a001   背包      16.0      65.0   60.0   960.0   3900.0  2940.0
1  a002   钱包      90.0     187.0   50.0  4500.0   9350.0  4850.0
2  a003   背包      16.0      65.0   23.0   368.0   1495.0  1127.0
3  a004  手提包      36.0     147.0   26.0   936.0   3822.0  2886.0
4  a004  手提包      36.0     147.0   26.0   936.0   3822.0  2886.0
5  a005   钱包      90.0     187.0   78.0  7020.0  14586.0  7566.0
6  a006  单肩包      58.0     124.0   63.0  3654.0   7812.0  4158.0

上述数据表的第4行和第5行中每列数据都完全相同,这样的行称为重复行。如果要只保留第4行,删除与第4行重复的行,可直接使用drop_duplicates()函数,无须设置任何参数。

>>> a = data.drop_duplicates()
>>> print(a)
     编号   产品  成本价(元/个)  销售价(元/个)  数量(个)   成本(元)    收入(元)   利润(元)
0  a001   背包      16.0      65.0   60.0   960.0   3900.0  2940.0
1  a002   钱包      90.0     187.0   50.0  4500.0   9350.0  4850.0
2  a003   背包      16.0      65.0   23.0   368.0   1495.0  1127.0
3  a004  手提包      36.0     147.0   26.0   936.0   3822.0  2886.0
5  a005   钱包      90.0     187.0   78.0  7020.0  14586.0  7566.0
6  a006  单肩包      58.0     124.0   63.0  3654.0   7812.0  4158.0

8.2 删除某一列中的重复值

>>> b = data.drop_duplicates(subset=\'产品\')
>>> print(b)
     编号   产品  成本价(元/个)  销售价(元/个)  数量(个)   成本(元)   收入(元)   利润(元)
0  a001   背包      16.0      65.0   60.0   960.0  3900.0  2940.0
1  a002   钱包      90.0     187.0   50.0  4500.0  9350.0  4850.0
3  a004  手提包      36.0     147.0   26.0   936.0  3822.0  2886.0
6  a006  单肩包      58.0     124.0   63.0  3654.0  7812.0  4158.0

默认保留第一个重复值所在的行,删除其他重复值所在的行。
可以利用drop_duplicates()函数的参数keep来自定义删除重复值时保留哪个重复值所在的行。
例如:

  • 将参数keep设置为\'first\',表示保留第一个重复值所在的行。
  • 如果要保留最后一个重复值所在的行,则将参数keep设置为\'last\'。
  • 还可以将参数keep设置为False,表示把重复值一个不留地全部删除。

8.3 获取唯一值

使用pandas模块中的unique()函数可以获取某一列数据的唯一值。

>>> f = data[\'产品\'].unique()
>>> print(f)
[\'背包\' \'钱包\' \'手提包\' \'单肩包\']

说明:获取的唯一值是按照其在数据表中出现的顺序排列的。

9 排序数据

排序数据主要会用到sort_values()函数和rank()函数。

  • sort_values()函数的功能是将数据按照大小进行升序排序或降序排序;
  • rank()函数的功能则是获取数据的排名。

9.1 用sort_values()函数排序数据

sort_values()函数的常用参数有两个:

  • 一个是by,用于指定要排序的列;
  • 另一个是ascending,用于指定排序方式是升序还是降序。
>>> a = data.sort_values(by=\'数量(个)\', ascending=True)
>>> print(a)
     编号   产品  成本价(元/个)  销售价(元/个)  数量(个)   成本(元)    收入(元)   利润(元)
2  a003   背包      16.0      65.0   23.0   368.0   1495.0  1127.0
3  a004  手提包      36.0     147.0   26.0   936.0   3822.0  2886.0
4  a004  手提包      36.0     147.0   26.0   936.0   3822.0  2886.0
1  a002   钱包      90.0     187.0   50.0  4500.0   9350.0  4850.0
0  a001   背包      16.0      65.0   60.0   960.0   3900.0  2940.0
6  a006  单肩包      58.0     124.0   63.0  3654.0   7812.0  4158.0
5  a005   钱包      90.0     187.0   78.0  7020.0  14586.0  7566.0

9.2 用rank()函数获取数据的排名

rank()函数的常用参数有两个:

  • 一个是method,用于指定数据有重复值时的处理方式;
  • 另一个是ascending,用于指定排序方式是升序还是降序。

rank初次接触不好理解,第10小节专门解释一下。

>>> b = data[\'利润(元)\'].rank(method=\'average\', ascending=False)
>>> print(b)
0    4.0
1    2.0
2    7.0
3    5.5
4    5.5
5    1.0
6    3.0

10 rank()函数

rank是通过“为各组分配一个平均排名”的方式破坏平级关系的。pandas排名会增加一个排名值(从1开始,一直到数组中有效数据的数量)。

函数原型:

rank(axis=0, method: str = \'average\', numeric_only: Union[bool, NoneType] = None, na_option: str = \'keep\', ascending: bool = True, pct: bool = False)

官方文档:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.rank.html

假设创建了一个Series对象obj = Series([7, -5, 7, 4, 2, 0, 4]),就是上图中”索引“和”值“这两列,我们人为的按照值的大小进行了一个排名,并且产生了一个序列(”人为的排名“)这一列,关于有两个索引(0和2)的值都是7的这种情况的排名的规则是,首先出现的值排名靠前。

下面就来说一下method参数的作用。

  • 若为”average“,不相同的值,排名就取”人为的排名“的排名值,相同值的,排名需要求平均值,例如:索引0和2的值都为7,则平均值为(7+6)/2=6.5;
  • 若为”min“,不相同的值,排名就取”人为的排名“的排名值,相同值的,排名取最小值,例如:索引0和2的值都为7,则排名都取6;
  • 若为”max“,不相同的值,排名就取”人为的排名“的排名值,相同值的,排名取最大值,例如:索引0和2的值都为7,则排名都取7;
  • 若为”first“,则就取”人为的排名“这列的值。

11. 筛选数据

>>> data = pd.read_csv(\'D:\git\python\code\第5章\产品统计表.csv\')
>>> a = data[data[\'产品\'] == \'单肩包\']
>>> print(a)
     编号   产品  成本价(元/个)  销售价(元/个)  数量(个)  成本(元)  收入(元)  利润(元)
5  a006  单肩包        58       124     63   3654   7812   4158
6  a007  单肩包        58       124     58   3364   7192   3828

用比较运算符“>”筛选出“数量(个)”列的值大于60的数据

>>> b = data[data[\'数量(个)\'] > 60]
>>> print(b)
     编号   产品  成本价(元/个)  销售价(元/个)  数量(个)  成本(元)  收入(元)  利润(元)
4  a005   钱包        90       187     78   7020  14586   7566
5  a006  单肩包        58       124     63   3654   7812   4158

如果要进行多条件筛选,并且这些条件之间是“逻辑与”的关系,可以用“&”符号连接多个筛选条件。

需要注意的是,每个条件要分别用括号括起来。

>>> c = data[(data[\'产品\'] == \'单肩包\') & (data[\'数量(个)\'] > 60)]
>>> print(c)
     编号   产品  成本价(元/个)  销售价(元/个)  数量(个)  成本(元)  收入(元)  利润(元)
5  a006  单肩包        58       124     63   3654   7812   4158

要进行多条件筛选,并且这些条件之间是“逻辑或”的关系,可以用“|”符号连接多个筛选条件,每个条件也要分别用括号括起来。