小白学 Python 数据分析（5）：Pandas （四）基础操作（1）查看数据

import numpy as np

import pandas as pd

dates = pd.date_range('20200101', periods=6)

df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))

print(df)

这里最后我们打印了一下这个生成的 DataFrame ，结果如下：

                   A         B         C         D

2020-01-01  0.177499 -0.025693  0.182894 -1.123577

2020-01-02  1.067580  1.592576 -0.010205 -0.349342

2020-01-03  1.141218  1.032333  1.364477  0.851630

2020-01-04  0.920260 -0.243247  0.196369 -0.835655

2020-01-05 -0.729184 -0.235706  1.144007 -1.048619

2020-01-06 -0.480888 -0.995325 -0.283726  0.428644

以上我们的准备工作就完成了，已经构建了一个随机产生的 DataFrame ，接下来我们看一些简单的取值操作。

首先第一个是从头部开始取值，这里使用到的方法是 head() ，比如现在需要取出上面这个 df 中第一行的数据，那我们可以这么写：

# 查看头部数据

print(df.head(1))

结果如下：

                   A         B         C         D

2020-01-01  0.177499 -0.025693  0.182894 -1.123577

既然有从头部取数那么一定会有从尾部取数，这个方法是 tail() ，用法和上面的一样，这里我们从尾部取出两行的数据，如下：

# 查看尾部数据

print(df.tail(2))

结果如下：

                   A         B         C         D

2020-01-05 -0.729184 -0.235706  1.144007 -1.048619

2020-01-06 -0.480888 -0.995325 -0.283726  0.428644

对照看之前的 df ，可以看到计算机成功完成了我们的目标。

接下来，我们获取这个 df 的索引，这里可以用到的方法是 index ，如下：

# 获取索引

print(df.index)

结果如下：

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',

               '2020-01-05', '2020-01-06'],

              dtype='datetime64[ns]', freq='D')

能获取索引那么就一定能获取所有的列名，这个方法大家可能都猜到了，就是 columns ，没毛病， Pandas 的命名还是很友好的，直接就是英文翻译，多的我这里就不吐槽了，命名不规范的代码经常性的会造成他人的误解，所以建议各位尽量命名规范一点：

# 获取列名

print(df.columns)

结果如下：

Index(['A', 'B', 'C', 'D'], dtype='object')

这里 Pandas 还为我们提供了一个很 NB 的方法，就是直接快速查看数据的统计摘要，这个方法是 describe() ，这个方法可以让我们简单的知道一个我们不清楚内容的 DataFrame 里面具体内容，如下：

# 查看数据的统计摘要

print(df.describe())

结果如下：

              A         B         C         D

count  6.000000  6.000000  6.000000  6.000000

mean   0.349414  0.187490  0.432303 -0.346153

std    0.818647  0.948383  0.663604  0.821275

min   -0.729184 -0.995325 -0.283726 -1.123577

25%   -0.316291 -0.241362  0.038070 -0.995378

50%    0.548879 -0.130700  0.189632 -0.592498

75%    1.030750  0.767826  0.907098  0.234148

max    1.141218  1.592576  1.364477  0.851630

这里的数据统计的挺全乎的，包括了数据量、均值、方差、最大值、最小值等。

小编这里邪恶的想，如果在上中学考试的时候有这玩意，就再也不需要用手在草稿纸上一个一个去做重复的体力劳动了。

Pandas 还为我们提供了一个神奇的功能，「转置数据」，就是把行列互换，示例如下：

# 转置数据

print(df.T)

结果如下：

   2020-01-01  2020-01-02  2020-01-03  2020-01-04  2020-01-05  2020-01-06

A    0.177499    1.067580    1.141218    0.920260   -0.729184   -0.480888

B   -0.025693    1.592576    1.032333   -0.243247   -0.235706   -0.995325

C    0.182894   -0.010205    1.364477    0.196369    1.144007   -0.283726

D   -1.123577   -0.349342    0.851630   -0.835655   -1.048619    0.428644

是不是很神奇，不过小编觉得并无什么实际用处。

小白学 Python 数据分析（5）：Pandas （四）基础操作（1）查看数据

我们在实际的应用场景中，经常会遇到排序的需求， Pandas 为我们提供了两个方法， sort_index() 和 sort_values() 。

为了便于演示，小编这里重新构造了一个乱序的 DataFrame ，如下：

df1 = pd.DataFrame({'b' :[1,2,3,2],'a':[4,3,2,1],'c':[1,3,8,2]},index=[2,0,1,3])

print(df1)

结果如下：

可以看到，这个 df1 从索引和列名上看顺序都是乱序的，接下来我们开始对这个 df1 进行排序，首先我们先使用 sort_values() 。

sort_values()

用途：既可以根据列数据，也可根据行数据排序。

注意：必须指定by参数，即必须指定哪几行或哪几列；无法根据 index 和 columns 排序（由 sort_index() 执行）

语法：DataFrame.sort_values(by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last')

axis：{0 or ‘index’, 1 or ‘columns’}, default 0，默认按照列排序，即纵向排序；如果为1，则是横向排序。
by：str or list of str；如果axis=0，那么by="列名"；如果axis=1，那么by="行名"。
ascending：布尔型，True则升序，如果by=['列名1','列名2']，则该参数可以是[True, False]，即第一字段升序，第二个降序。
inplace：布尔型，是否用排序后的数据框替换现有的数据框。
kind：排序方法，{‘quicksort’, ‘mergesort’, ‘heapsort’}, default ‘quicksort’。似乎不用太关心。
na_position：{‘first’, ‘last’}, default ‘last’，默认缺失值排在最后面。

按 b 列升序排序：

# 按 b 列升序排序

print(df1.sort_values(by='b'))

结果如下：

先按 b 列降序，再按 a 列升序排序：

# 先按 b 列降序，再按 a 列升序排序

print(df1.sort_values(by=['b','a'],axis=0,ascending=[False,True]))

结果如下：

按行 3 升序排列,必须指定 axis = 1 ：

# 按行 3 升序排列,必须指定 axis = 1

print(df1.sort_values(by=3,axis=1))

结果如下：

按行 3 升序，行 0 降排列：

# 按行 3 升序，行 0 降排列

print(df1.sort_values(by=[3,0],axis=1,ascending=[True,False]))

结果如下：

sort_index()

用途：默认根据行标签对所有行排序，或根据列标签对所有列排序，或根据指定某列或某几列对行排序。

注意：df.sort_index() 可以完成和 df.sort_values() 完全相同的功能，但 python 更推荐用只用 df.sort_index() 对 index 和 columns 排序，其他排序方式用 df.sort_values() 。

语法：DataFrame.sort_index(axis=0, level=None, ascending=True, inplace=False, kind='quicksort', na_position='last', sort_remaining=True, by=None)

axis：0 按照行名排序；1 按照列名排序。
level：默认 None ，否则按照给定的 level 顺序排列。
ascending：默认 True 升序排列； False 降序排列。
inplace：默认False，否则排序之后的数据直接替换原来的数据框。
kind：排序方法，{‘quicksort’, ‘mergesort’, ‘heapsort’}, default ‘quicksort’。似乎不用太关心。
na_position：缺失值默认排在最后{"first","last"}。
by：按照某一列或几列数据进行排序，但是by参数貌似不建议使用。

默认按「行标签」升序排列：

# 默认按「行标签」升序排列

print(df1.sort_index())

结果如下：

按「列标签」升序排列：

# 按「列标签」升序排列

print(df1.sort_index(axis=1))

结果如下：

还有两个按列排序的例子：

# 先按 b 列「降序」排列，因为 b 列中有相同值，相同值再按 a 列的「升序」排列

print(df1.sort_index(by=['b','a'],ascending=[False,True]))

# 先按 a 列「降序」排列，而 a 列中没有相同值，因此这里按 b 列的「升序」排列不起作用。

print(df1.sort_index(by=['a','b'],ascending=[False,True]))

结果如下：

虽然正常排序，但是程序运行后也出现了警告，如下：

FutureWarning: by argument to sort_index is deprecated, please use .sort_values(by=...)

这个警告的意思是不推荐我们使用 sort_index() 使用 by 这个参数，推荐我们使用 sort_values() 这个方法。

示例代码

老规矩，所有的示例代码都会上传至代码管理仓库 Github 和 Gitee 上，方便大家取用。

示例代码-Github

示例代码-Gitee

参考

https://www.pypandas.cn/docs/getting_started/10min.html

https://www.jianshu.com/p/f0ed06cd5003

秒客网

小白学 Python 数据分析（5）：Pandas （四）基础操作（1）查看数据

引言

查看数据

sort_values()

sort_index()

示例代码

参考

相关文章