pandas 初识(二)

时间:2024-01-22 08:39:53

基本统计

  • pivot_table(数据透视表 ): 使用appfunc, 按不同index分类统计各特征values的值
df.pivot_table(index="Pclass", values="Survived", aggfunc=np.mean)

注: index: Pclass 字段对应的值进行分类

values:str or list,分类统计的特征,为字符串(一个特征)或者数组(多个特征)

aggfunc:统计特征的回调函数

  返回值: <class 'pandas.core.frame.DataFrame'>

  • apply(f, axis=0): 函数应用和映射, 针对的是行或者列的运算,axis = 0 or 1代表在行或者列上计算,并不是输出结果为行,列的标签对应的值
  • applymap(f) : 针对元素级的应用,Series 中的是 df['e'].map(f)
  • sort_index :
    • 根据任意轴上的索引进行排序 axis = 0 或1
    • 列中值进行排序(联合)可以通过by=['a', 'b']
  • range(method="first) : 获取各值得排名
    • ‘average’ : 默认,相等的值为一组,在组中为各值分配平均排名
    • ‘min’: 使用整个分组的最小排名
    • ‘max’ : 使用这个分组的最大排名
    • ‘first’ : 按值在数据中行出现的顺序分配排名
  • pd.value_counts(obj.values, sort=False) : 计算 series 中的元素个数