在认识客观世界的过程中,统计学的思想和方法经常起着不可替代的作用。在许多工程及自然科学的专业领域中,包括可靠性分析、质量控制、生物信息、脑科学、心理分析、经济分析、金融风险管理、社会科学推断、行为科学等,统计分析方法已经成为基本的数据分析与信息分析工具。
在科学研究和实际问题的处理过程中,往往需要面对数据的分析和处理。这些数据虽然包含了大量的信息,但对所关心的问题而言,还需要对数据进行一定的处理才能从中提炼出有用的信息。那么如何从这些收集到的数据中获取所关心的信息呢?统计学提供相应的思想和方法,通过对数据的加工和整理,从中提取更有价值的信息。
1. 基本概念
(1)总体
对于一个统计问题,将研究对象的全体称为总体(population),构成总体的每一个元素称为个体。
考察一个随机试验,其所有可能结果(基本事件)构成的集合称为样本空间。
将统计问题看成是随机试验,将一个个体看作一个基本事件,那么总体就可以理解为一个样本空间。
例如,要考察某大学在校学生的月生活费支出情况,则该所大学的全体在校学生就构成相应的总体,而每一个在校学生就是一个个体。而如果要研究的是成都市大学在校学生的月生活费支出情况,那么总体就包含了成都市所有大学的在校学生。
总体是根据研究范围所确定的。
对于不同的研究问题,通常只对总体中个体的某些数值特征感兴趣,如确定一批节能灯泡的使用寿命,调查某地区3岁儿童的身高与体重等等。一般情况下就将所关注的特征量视为总体,而每一个个体的取值就是总体的所有可能取值。因此对于要考察的一个或多个特征量就可以定义为一个随机变量、或一组随机变量,后者也视为一个多元随机变量。
通常情况下总体都非常大,而且有些调查数据是经过破坏性试验获得的,不可能每一个个体都逐一考察。例如,为了了解2008年成都市居民用于食品的平均消费情况,应该如何做呢?显然,不可能去调查每一个成都市的居民,然后得到所需要的数据。事实上只需要随机选取一部分成都市居民进行调查。
(2)样本
统计学的主要目的就是对收集到的数据进行加工和整理,通过分析从这些数据中发掘所需要的信息,并得到一定的结论。因此,在实际调查和研究中,所能够得到的就是从总体中随机抽取的一部分个体,称之为样本(sample)。对这些样本的调查或观测所得到的数据,就是做统计推理时所能利用的信息。
统计就是要研究客观现象总体的数量特征和数量关系。当用试验或观察的方法研究一个具体问题时,首先从总体中抽取一定的样本,通过适当的观察或试验获取必要的数据。通过对样本的研究,才能进一步对总体做出相应的推断。
对数据的一些基本特征给以简单描述和总结这一过程中所用到的方法就属于描述性统计,描述性统计分析不仅是进行统计分析的第一步,同时也是对数据进行更深层次分析的基础。简单地说,描述性统计分析就是对所收集的大量数据进行加工整理,用统计语言去描述这些数据的特征,提取它们包含的信息,从而揭示研究对象的内容和本质。
2. 描述性统计中的图形显示
统计描述语言包括图形、表格、各种特征量,概括和表现研究对象的统计性质,包含了全面分析的研究过程。因此,描述性统计可以分为两类:一类是利用图形的直观性对数据特征进行展示,如直方图、散点图、折线图等等;另一类则是通过计算给出一些具体的数字来描述数据的一些显著特点,如均值、标准差、中位数等等。
数据的图形表示是一种简便而又突出主要信息的实用方法,它能直观地显示数据蕴含的一些重要信息,不需要更多的专业背景知识也可以理解。一个好的统计图形,能够在最短的时间里传递出最多的信息,用最少的笔墨给出更多的思维空间。因此,如何利用统计图表直观展示数据中所包含的信息,也是撰写统计分析报告时必须考虑的重要问题。
直方图
直方图(Histogram)是用矩形的宽度和高度来表示频数分布的图形,可以用于观察数据的分布情况。具体来讲,就是在平面直角坐标中,横轴表示数据分组,纵轴表示频率,这样形成的矩形条就称为直方图,其面积恰好就等于数据落在该区间间隔的频率,因此也称为频率直方图。
做直方图的具体步骤如下:
(1)对数据进行分组:,组的划分对直方图极为重要。那么在数据的最大值与最小值之间,如何分组更为合适呢?通常来讲,结合问题背景,组数控制在5~20个之间。H.A. Sturges 建议使用以下经验公式来确定组数:\[\text{组数}k=1+3.31\times\lg n\]
其中\(n\)是数据总量。本例中有30个数据,按照上述公式,可以分为6组。
(2)确定每组组距: 实际使用中为了便于比较,通常令各组区间长度相同,也称其为组距,用所有数据中的最大值与最小值之差除以组数即可得到。
(3)确定分组区间: 选择略小于最小观测值的数\(a\),略大于最大观测值的数\(b\),根据所确定的组距将\(\left(a,b\right)\)区间分为\(k\)个分组区间。
(4)统计所有数据中落在每个区间的频数,并计算相应的频率.
(5)绘制直方图: 横坐标表示分组变量,纵坐标表示频率,在横轴上以分组区间为底,以频率/组距为高依次画出长方形,这样就可以得到单位频率直方图,简称频率直方图。
直方图可以直观的反映出数据的分布情况,相对于茎叶图更容易被大众所理解和接受。因此,直方图也是我们对数据进行描述性分析时十分常用的统计图形。
3.位置测度
面对数据,希望从中提取出一些指标,其数值大小可以反映出这个数据集的某些特征。对于一组具体的数据,首先会希望了解它们的取值主要集中在什么位置,或者说这些数据的集中趋势。
(1)均值(Mean)
均值也称为算术平均值,是指全部样本数据的算术平均。假设有\(n\)个样本数据\(x_{1},x_{2},\ldots,x_{n}\),其均值\(\overline{x}\)定义为
\[\overline{x}=\frac{x_1+x_2+\cdots+x_n}{n}=\frac{1}{n}\sum_{i=1}^{n} x_i\]
显然,均值只适用于数值型数据。
(2)中位数(Median)
中位数是将一组数据从小到大排序后,处于中间位置的数据值,通常用\(M_{e}\)表示。假设有\(n\)个样本数据\(x_{1},x_{2},\cdots,x_{n}\),将其按照从小到大的顺序排列,记为
\[x_{(1)}\leqslant x_{(2)}\leqslant\cdots\leqslant x_{(n)}\]
若\(n\)为奇数,则中位数为\(x_{(\frac{n+1}{2})}\);若\(n\)为偶数,则中位数为\(x_{(\frac{n}{2})}\)和\(x_{(\frac{n}{2}+1)}\)
的平均值。即
\[M_{e}=\begin{cases}x_{(\frac{n+1}{2})} & n\text{为奇数}\\ \frac{1}{2}\left(x_{(\frac{n}{2})}+x_{(\frac{n}{2}+1)}\right) & n\text{为偶数}\end{cases}\]
均值和中位数都是表示集中位置的指标,需要注意的是,极大值和极小值对中位数没有影响,而对均值则会造成一定影响,中位数具有一定意义下的稳定性(稳健性)。
(3)四分位数
中位数是从中间点将全部数据等分为两部分。为了更详细地反映数据的分布位置,还可以将数据做更多的等分。粗略地讲,四分位数是将所有的数据等分为四部分,处在各分点位置的数据就是四分位数。
通常情况下,称第一个四分位数为下四分位数,记为\(Q_{L}\);第三个四分位数为上四分位数,记为\(Q_{U}\);而第二个四分位数恰好就是中位数,记为\(Q_{M}\), 四分位数的计算方法与中位数的计算类似。
如果处理的是分组数据,则先确定\(Q_{L}\)和\(Q_{U}\)的位置以及它们各自所在的组,然后再仿照中位数的计算公式确定\(Q_{L}\)和\(Q_{U}\)的具体数值。具体计算公式如下:
\[Q_{L}=L_{L}+\frac{\frac{n}{4}-S_{L}}{f_{L}}\times i_{L}\]
\[Q_{U}=L_{U}+\frac{\frac{3n}{4}-S_{U}}{f_{U}}\times i_{U}\]
其中,\(n\)是数据的总个数,\(L_{L}\)和 \(L_{U}\)分别是\(Q_{L}\)和\(Q_{U}\)所在组的下限值;\(f_{L}\)和 \(f_{U}\)分别是 \(Q_{L}\)和 \(Q_{U}\)所在组的频数;\(i_{L}\)和 \(i_{U}\)分别是 \(Q_{L}\)和\(Q_{U}\)所在组的组距;\(S_{L}\)和 \(S_{U}\)分别是 \(Q_{L}\)和 \(Q_{U}\)所在组以前各组的累积频数。
4.变异性测度
对数据资料的基本分析只关注其集中趋势的描述还不够,还需要对数据的变异性(即离散趋势)作出有效的描述。中心位置只能反映数据集的部分特征,不同的数据集即使具有相同的位置测度值(如均值或中位数),可能仍然存在很大的差异。
(1)样本数据的变异性测度
对于一组样本数据,要描述数据的分散程度,最简单的一个方法就是极差(Range),即最大值与最小值之差(用\(R\)表示)。
(2)样本方差
为了描述所有数据偏离中心位置的程度,一个最初的想法就是给出平均偏差(deviations from the mean),即 \(x_{1}-\overline{x},x_{2}-\overline{x},\ldots,x_{n}-\overline{x}\)。如果将这些平均偏差全部加起来,由于
\[\overline{x}=\frac{x_1+x_2+\cdots+x_n}{n}=\frac{1}{n}\sum_{i=1}^{n}x_{i}\]
所以\[\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)=\sum_{i=1}^{n}x_{i}-n\overline{x}=0\]
这是因为平均偏差中有正有负,直接求和之后出现了正负抵消的结果。那么如何消除这种影响呢?通常我们会采用对平均偏差取绝对值或者平方之后再求和。如果取绝对值,即\(\left|x_{1}-\overline{x}\right|,\left|x_{2}-\overline{x}\right|,\ldots,\left|x_{n}-\overline{x}\right|\)。对所有的平均偏差取平方,\(\left(x_{1}-\overline{x}\right)^{2},\left(x_{2}-\overline{x}\right)^{2},\ldots,\left(x_{n}-\overline{x}\right)^{2}\),并称
\[s^{2}=\frac{1}{n-1}\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}=\frac{S_{xx}}{n-1}\]
为样本方差,其中\(S_{xx}=\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}\)。相应的样本标准差为
\[s=\sqrt{s^{2}}\] \(s\)的量纲与样本数据\(x_{i}\)的量纲一致,在实际问题中使用更为方便。
由于
\[\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}=\sum_{i=1}^{n}\left(x_{i}^{2}-2\overline{x}\cdot x_{i}+\overline{x}^{2}\right)=\sum_{i=1}^{n}x_{i}^{2}-2\overline{x}\sum_{i=1}^{n}x_{i}+\sum_{i=1}^{n}\overline{x}^{2}=\sum_{i=1}^{n}x_{i}^{2}-2\overline{x}\cdot n\overline{x}+n\left(\overline{x}\right)^{2}=\sum_{i=1}^{n}x_{i}^{2}-n\left(\overline{x}\right)^{2}\]
所以\(S_{xx}\)也可以表示为
\[S_{xx}=\sum_{i=1}^{n}x_{i}^{2}-\frac{1}{n}\left(\sum_{i=1}^{n}x_{i}\right)^{2}\]
箱线图(Boxplots)
均值、极差等数量指标可以对数据集的分布中心和离散程度等某些局部特征作出一定的说明。能否将这两种处理手段结合起来,对数据集进行更加形象而且量化的描述呢?箱线图就可以达到这个目的。给定一个数据集,箱线图能够描述的特征包括:中心,数据分布范围和对称性,以及异常数据(即离群值)的诊断。
将给定的\(n\)个观测数据从小到大排序,下四分位数和上四分位数}分别为:
\[\text{下四分位数=}\begin{cases}\text{最小的}n/2\text{个观测数据的中位数} & n\text{为偶数}\\ \text{最小的}(n+1)/2\text{个观测数据的中位数} & n\text{为奇数}\end{cases}\]
\[\text{上四分位数=}\begin{cases}\text{最大的}n/2\text{个观测数据的中位数} & n\text{为偶数}\\ \text{最大的}(n+1)/2\text{个观测数据的中位数} & n\text{为奇数}\end{cases}\]
四分位数间距\(f_{s}\)反映了数据的分布范围,具体定义如下:
\[f_{s}=\text{上四分位数-下四分位数}\]
简单说来,四分位数间距只与取值在下四分位数和上四分位数之间的数据有关,而与取值落在这个范围之外的数据无关。箱线图的绘制就是基于以下5个指标:
\[\text{最小值}x_{(1)},\text{ 下四分位数},\text{ 中位数}M_{e},\text{上四分位数,}\text{最大值}x_{(n)}\]
位于上下四分位数1.5倍四分位数间距之外的数据点称为离群值(Outlier)。
5.概率与统计关系
掷一枚硬币,可能出现正面,也可能出现反面。考虑以下两种情况:
(1)出现正面的概率已知,如果重复掷一枚硬币,那么推断正面和反面分别出现的次数是概率问题。
(2)出现正面的概率未知,如果观察重复掷一枚硬币的次数以及出现正面的次数,那么推断出现正面的概率是统计问题。
在进行统计分析时,一般都是基于概率论知识。但早在概率论体系构建成形之前,人们就已经将统计的朴素思想运用到了实践中,并逐步从理论上提升为概率论的认识,从而促进了概率论的发展。从另一角度来看,概率论从理论认识的角度,分析并探讨了统计思想的合理性,从而为统计方法的应用提供了理论支撑。因此,概率论与数理统计的形成和发展是相互依存、相辅相成的。