记录一些pandas选择数据的内容,此前首先说行列名的获取和更改,以方便获取数据。此文作为学习巩固。
这篇博的内容顺序大概就是: 行列名的获取 —> 行列名的更改 —> 数据选择
一、pandas的行列名获取和更改
1. 获取: df.index() df.columns()
首先,举个例子,做一个dataframe如下:
1
2
3
4
|
>>> import pandas as pd
>>> import numpy as np
>>>data = pd.dataframe({ 'a' :[ 1 , 2 , 3 ], 'b' :[ 4 , 5 , 6 ], 'c' :[ 7 , 8 , 9 ]})
>>>data
|
设置了列索引为 abc,行索引是自动生成的,也可以设置
1
2
|
>>>data.index = [ 'a' , 'b' , 'c' ]
>>>data
|
以下的做法都以这个 data 作为数据举例
接下来就可以获取索引了,index-行索引,columns-列索引
1
|
>>>data.index
|
1
|
>>>data.columns
|
2. 修改,看到有很多方法,这里推荐一种比较灵活好用的方法
1
2
3
|
df.rename(index = { }, columns = { }, inplace = true)
>>>data.rename(index = { 'a' : 'd' , 'b' : 'e' , 'c' : 'f' }, columns = { 'a' : 'd' , 'b' : 'e' , 'c' : 'f' }, inplace = true)
>>>data
|
说明3点:
1. index和columns无关,可以分别指定,也就是说,可以只修改行索引,那么rename()中只写index
2. 索引可以任意挑选,如此处,index={'a':'d', 'c':'f'} 则只改a和c,columns同样
3. inplace=true, 在原dataframe上改动
二、pandas的数据选择
1. 直接用索引选(不灵活、不推荐) df[ ]
1) 选择‘a'列
1
|
>>>data[ 'a' ]
|
注意:
1. 这样取出的数据类型为 series
2. 这种方法只能取出一列,不能用数字下标,不能多选或片选, data['a','b'] , data['a':'c'] , data[0]
2)选择'a','b'行
1
2
|
>>>data[ 'a' : 'b' ]
>>>data[ 0 : 2 ] # 两种方法同一结果
|
注意:
1. 这样取出的数据类型为 dateframe
2. 这种方法只能用于片选行,可以用数字下标,不能单独取,即 data['a'] , data['a','b'] , data[1]
2.使用 .loc(推荐) df.loc(),()内参数先行后列,区别行列的取法
1) 取列:
1
|
>>>data.loc[:,[ 'a' , 'c' ]] #图1 需要行全取,再对应指定列
|
2)取行:
1
|
>>>data.loc[[ 'a' , 'b' ]] #图2 直接指定行
|
3)取行列交叉值:
1
|
>>>data.loc[[ 'a' ],[ 'b' , 'c' ]] #图3
|
注意:
1. 区别 df.iloc()
.loc() —— 使用标签 label 作为索引取值
.iloc() —— 使用整数下标 index 作为索引取值,如上面三句可以换成以下三句,输出数据类型有不同
1
2
3
|
>>>data.iloc[:,[ 0 , 2 ]] # dataframe
>>>data.iloc[[ 0 , 1 ]] # dataframe
>>>data.iloc[ 0 ,[ 1 , 2 ]] # series
|
2. 对于 数字类型的变量,可以使用bool 选取行,列不能用bool,如
1
|
>>>data.loc[data.b> 5 ] # dataframe
|
1
2
|
>>>data.loc[data.b> 5 ,[ 'c' ]] #dataframe 输出为9位置的frame
>>>data.iloc[data.b.values> 5 ,[ 2 ]] #dataframe 输出同上,需要有 .values取值
|
3. .ix[ ] 可以混用label和index,位置使用同 .loc[ ] .iloc[ ]
以上这篇对pandas的行列名更改与数据选择详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持服务器之家。
原文链接:https://blog.csdn.net/zhang_diandian/article/details/79903592