统计学习(一):数据的组织和表示

时间:2024-02-19 21:21:46

数据(data):对一个或多个变量的度量

表示形式:图或表

数学表示:矩阵(阵列 array )

设对 p 个变量的 n 次度量数据,设 X=(X1,X2,,Xp)Rp, xi=(xi1,xi2,,xip),i=1,2,,n. 设

X=x11x21xn1x12x22xn2x1px2pxnp=x1x2xn=(x1,x2,,xn)

描述性统计量

  • 样本均值

x¯k=1nj=1nxjk,k=1,2,,p

  • 样本方差

s2k=1n1j=1n(xjkx¯k)2,k=1,2,,p

  • 标准差

sk=s2k

  • 样本协方差

sik=1nj=1n(xjix¯i)(xjkx¯k),i,k=1,2,,p

s2k=skk

  • 皮尔逊相关系数

rik=siksiisik

数据的图表示法

本节介绍三种常用的图表示法,分别是散点图、箱线图和直方图。所用的例子数据是瑞士银行真(伪)钞票数据集,涉及到6个刻画票面特征的变量


这里写图片描述


这里写图片描述

  • 散点图( scatter plot )

散点图是两变量或三变量的数据点图。它有助于理解变量之间的关系。


这里写图片描述

  • 箱线图( boxplot )

箱线图又称盒图,是”五数概括”的图形表示。所谓”五数概括”,是指描述样本(数据)分布形态的五个统计量,即,样本的1/4分位数 FL 、中位数、3/4分位数 FU 、最小值和最大值。为了画出箱线图,需要定义 F-spread 统计量 dF=FU-FL, 上界 FU+1.5dF, 下界 FL-1.5dF, 处于上、下界之外的数据点,被称为异常值点( outliers )。需要注意的是,极值点(最大值和最小值)未必是 outliers.

箱线图的画法:

(1). 画一只箱子,使得箱子的下底边在1/4分位点,而上底边在3/4分位点,即,该箱内包含50%的数据;

(2). 在箱内的中位数处画一条实线,均值处画一条虚线;

(3). 从箱子的两个底边*分别向最小值和最大值画线,称为须(whiskers);

(4). . 若存在outliers,将它们画成“*” 或 “.”,在图中标出。


这里写图片描述

  • 直方图( Histogram plot )

直方图是连续总体的密度估计,它用计数分别落入一列连续排列的格子( bins )的样品的数目,局部地表示总体密度。

Bj(x0,h) 表示以 x0 为起始位置,长度为 hbin, 即

Bj(x0,h)=[x0+(j1)h,x0+jh),j=1,2,

x1,x2,,xn 是来自密度函数 f 的样本,则 f 的密度估计为
f^h(x)=n1h1ji=1nI(xiBj(x0,h))I(xBj(x0,h))

通常用直方图表示数据分布的形态。常见的形态包括 symmetric, skewed left or right, unimodal, bimodal or multimodal.


这里写图片描述

阅读更多精彩内容,请关注微信公众号”统计学习与大数据”!