数据(data):对一个或多个变量的度量
表示形式:图或表
数学表示:矩阵(阵列 array )
设对
描述性统计量
- 样本均值
- 样本方差
- 标准差
- 样本协方差
- 皮尔逊相关系数
数据的图表示法
本节介绍三种常用的图表示法,分别是散点图、箱线图和直方图。所用的例子数据是瑞士银行真(伪)钞票数据集,涉及到6个刻画票面特征的变量
- 散点图( scatter plot )
散点图是两变量或三变量的数据点图。它有助于理解变量之间的关系。
- 箱线图( boxplot )
箱线图又称盒图,是”五数概括”的图形表示。所谓”五数概括”,是指描述样本(数据)分布形态的五个统计量,即,样本的1/4分位数 FL 、中位数、3/4分位数 FU 、最小值和最大值。为了画出箱线图,需要定义 F-spread 统计量 dF=FU-FL, 上界 FU+1.5dF, 下界 FL-1.5dF, 处于上、下界之外的数据点,被称为异常值点( outliers )。需要注意的是,极值点(最大值和最小值)未必是 outliers.
箱线图的画法:
(1). 画一只箱子,使得箱子的下底边在1/4分位点,而上底边在3/4分位点,即,该箱内包含50%的数据;
(2). 在箱内的中位数处画一条实线,均值处画一条虚线;
(3). 从箱子的两个底边*分别向最小值和最大值画线,称为须(whiskers);
(4). . 若存在outliers,将它们画成“*” 或 “.”,在图中标出。
- 直方图( Histogram plot )
直方图是连续总体的密度估计,它用计数分别落入一列连续排列的格子( bins )的样品的数目,局部地表示总体密度。
令
设
通常用直方图表示数据分布的形态。常见的形态包括 symmetric, skewed left or right, unimodal, bimodal or multimodal.
阅读更多精彩内容,请关注微信公众号”统计学习与大数据”!