数据特征分析包括以下几个方面的内容:
1、分布分析
a、定量数据分布分析:绘制频率直方分布图
b、定性数据分布分析:根据变量的分类类型分组,绘制饼图和条形图来描述分布
2、对比分析
a、绝对数对比
b、相对数对比(如结构相对数、比例相对数)
3、统计量分析
a、集中趋势度量:均值、中位数、众数
b、离中趋势度量:极差、标准差、变异系数(标准差/均值)、四分位数间距
、
4、周期性分析:帕累托法则(即为二八法则)
5、相关性分析(连续变量之间线性相关的程度)
a、绘制散点图、绘制散点图矩阵
b、计算相关系数(皮尔森相关系数、斯皮尔曼秩相关系数、判定系数)
可以从上面的代码中,计算出任意两款菜式的相关系数。可以看出,pandas的corr()函数用来计算皮尔森是非常方便的。D.corr(method=\'pearson\')可以计算方法,默认是皮尔森,还支持Kendall、spearman相关系数。