pandas（三）汇总和计算描述统计

pandas对象有一些常用的数学和统计的方法，大部分都属于约简或汇总统计。

SUM方法

DataFrame对象的sum方法，返回一个含有列小计的Series

>>> df = DataFrame([[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],index = ['a','b','c','d'],columns = ['one','two'])

>>>

>>>

>>> df

    one  two

a  1.40  NaN

b  7.10 -4.5

c   NaN  NaN

d  0.75 -1.3

>>> df.sum()

one    9.25

two   -5.80

dtype: float64

>>> df.sum(axis=1)

a    1.40

b    2.60

c    0.00

d   -0.55

dtype: float64

NA值会自动被踢除（新版本会自动转换为0）。可以通过skipna选项禁用此功能。

>>> df.sum(axis=1,skipna = False)

a     NaN

b    2.60

c     NaN

d   -0.55

dtype: float64

>>> df.sum(skipna =False)

one   NaN

two   NaN

dtype: float64

常用的统计方法：

########################	******************************************
count	非 NA 值的数量
describe	针对 Series 或 DF 的列计算汇总统计
min , max	最小值和最大值
argmin , argmax	最小值和最大值的索引位置（整数）
idxmin , idxmax	最小值和最大值的索引值
quantile	样本分位数（0 到 1）
sum	求和
mean	均值
median	中位数
mad	根据均值计算平均绝对离差
var	方差
std	标准差
skew	样本值的偏度（三阶矩）
kurt	样本值的峰度（四阶矩）
cumsum	样本值的累计和
cummin , cummax	样本值的累计最大值和累计最小值
cumprod	样本值的累计积
diff	计算一阶差分（对时间序列很有用）
pct_change	计算百分数变化

统计方法的常用选项

axis=None，skipna = True，level=None

秒客网

pandas（三）汇总和计算描述统计

SUM方法

相关文章