统计学基础-数值型数据

时间:2024-02-24 14:11:04

 

1.什么是统计学,什么是描述统计,什么是推断统计

 

    • 统计学(statistics):收集、处理、分析、解释数据并从数据中得出结论的科学。

    • 描述统计(discriptive statistics):研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。

      描述统计其实就是对数据进行总体特征的概述,例子:说一下班级这次考试的情况如何

    • 推断统计(inferential statistics):是研究如何利用样本数据来推断总体特征的统计方法

      推断统计其实是建立在描述统计的基础之上,在对总体数据有了大致的了解之后,运用一些分析方法,对数据进行预测,并达到统计决策的目的,其实不管是在统计学上,还是在实际的业务分析中,我们做分析的终极目的就是用来得出我们结论,应用于决策。例如:房价预测,通过预测数据来进行销售,用户看到房价走势,如果一路走高,是不是要提早下手

2.统计研究的步骤

  • 设计

全过程最关键的一步,良好的开端是成功的一半 选题--明确研究目的--提出假设--明确总体范围--确立观察指标--控制研究中的偏移--给出具体的研究方案

  • 收集

收集数据,来源数据库,问卷等

  • 整理

数据整理非常重要,现在的数据处理工具也比较好用,一定要把数据清洗干净,数据清洗好了才能得出正确的结论

  • 分析

统计描述:了解样本数据的情况,是全部工作的基础,是尽量精确、直观而全面的对所获得的样本进行呈现

统计推断:从样本信息外推到总体,以获得对所感兴趣问题的解答

参数估计:样本-->所在总体特征

 

3.描述统计

 

 

 

  • 集中趋势

高峰组段在什么位置

均数(mean):总体均数和样本均数,受极值的影响很大

中位数(Median):将全体数据从小到大排列,在整个数列中处于中间位置的那个值就是中位数。不受极端值的影响,在具有个别极大或极小值的分布数列中,中位数比均数更具有代表性

                                 中位数的应用场景:对于对称性的数据,优先均数,仅仅对于均数不能使用的情况才使用中位数加以描述。

众数:一组数据当中,出现次数最多的那个数,工作中用的很少

 

Excel怎么操作

使用函数,还有更方便的操作,讲完离散趋势再说

均数:average()

中位数:median()

众数:mode()

 

 

  • 离散趋势

数据分布范围是什么,分散程度如何

离均差:x-μ  个体偏离均值的程度

总体方差:离均差平方和/样本量

总体标准差:方差开根号

样本标准差: 

  存在的问题:

    1.测量尺度的相差太大:例如蚂蚁和大象的体重变异

    2.计算单位不同:比较身高和体重的变异程度

  变异系数  

 

 

   变异系数解决了不同样本变异程度对比的问题

配件A的变异系数 = 7.6/13.5 = 0.562963
维修费的变异系数 = 120.7/247.9 = 0.48689

二者有一定差异,但是差的不多,还算保持一致

百分位数: 是一个位置指标,用Px表示,一个百分位数Px将一组观察值分为两部分,理论上有x%的观察值比它小,有(100-x)%的观察值比它大,适用于各种分布

四分位数:P25、P50和P75分位数分别称作下四分位数,中位数 上四分位数

 

Excel怎么实现

使用函数

方差:var.s(num1,num2,....)

标准差:stdev.s(num1,num2,....)

变异系数:标准差/均值

百分位数:percentile.inc(array,k)

四分位数:quartile.inc(array,k)

 

  • 分布形状

是否对称,分布曲线的形状

    • 偏度系数 正态 正偏态 负偏态
    • 峰度系数 正态 平阔峰 尖峭峰

 

 

 

  • 分布特征

偏态 峰态

 

 

Excel怎么实现

使用函数

偏度:skew()

峰度:kurt()

 

 

 

 

4.推断统计

 

利用样本数据来推断总体特征的统计方法

从样本信息外推到总体,以最终获得对所感兴趣问题的解答

 

 

 

 

 

 

1 分类变量

    • 无序分类变量:说明事物类别的一个名称,如性别有男女两种,二者无大小之分,无顺序之分,还有如血型、民族等
    • 有序分类变量:也是说明事物类型的一个名称,但是有次序之分,例如:满意度分为满意 一般 不满意,三者是有顺序的,但是无大小之分

 

2 数值型变量

    • 连续型变量:取值范围是一个区间,它可以在该区间中连续取值,即连续型变量可以取到区间中的任意值,并且有度量单位。例如:身高、年龄、体重、金额
    • 离散型变量:取值范围是有限个值或者一个数列构成的,表示分类情况,如:企业数量 产品数量等

 

    • 小概率事件:在统计学中,如果随机事件发生的概率小于或等于0.05,则认为是一个小概率事件,表示该事件在大多数情况下不会发生,并且一般认为小概率事件在一次随机抽样中不会发生,这就是小概率原理。小概率原理是推断统计的基础。

 

3 随机变量

随机事件的数量化

比如:还是抛硬币,出现正面,我们定义为“成功”,记为1,出现反面定义为“失败”,记为0,,那{0,1}就是本次实验的结果的量化值,为随机变量

离散型随机变量:随机变量X可以一一列举出来,在一定区间范围内X是有限个,可数的

连续型随机变量:随机变量X无法一一列举,在一定区间范围内是无限个,

4 总体和样本

总体:根据研究目的确定的所有个体某指标观察值(测量值)的集合

样本:在一个较大范围的研究对象中随机抽出一部分个体进行观察或预测,这些个体的测量值构成的集合称为样本。

5 随机抽样

随机抽样的本质:每个个体最终是否入选在抽样进行前是不可知的,但是其入选的可能性是确切可知的(每个个体被抽到的概率是相等的)

6 总体参数和统计量

总体参数:刻画总体特征的指标称为总体参数,例如:总体均值(μ),总体标准差(σ),总体比例 (π)

统计量:刻画样本特征的指标称为统计量,例如:样本均值(x-bar),样本标准差(s),样本比例(p)

但是往往总体参数都是不可知的,我们经常会通过样本统计量去估算总体参数。

7 抽样误差

由随机抽样造成的样本统计量与总体指标之间的差异称为抽样误差(sampling error)。虽然在一次抽样研究中的抽样误差大小是随机的,但是抽样误差在概率意义下有规律可循

 

 

 

 

概率分布

随机变量的概率存在一定的规律,这个规律叫做概率分布,但是离散型随机变量和连续型随机变量的规律并不相同,离散型随机变量的概率分布有:二项分布、泊松分布;连续型随机变量的概率分布:正态分布。

 

1 离散型随机变量的概率分布

二项分布

 

 

Excel计算方式:

=BINOM.DIST(2,5,0.5,FALSE)

 

函数介绍

BINOM.DIST(number_s,trials,probability_s,cumulative)

BINOM.DIST 函数语法具有以下参数:

  • Number_s 必需。 试验的成功次数。
  • Trials 必需。 独立试验次数。
  • Probability_s 必需。 每次试验成功的概率。
  • cumulative 必需。 决定函数形式的逻辑值。 如果 cumulative 为 TRUE,则 BINOM.DIST 返回累积分布函数,即最多存在 number_s 次成功的概率;如果为 FALSE,则返回概率密度函数,即存在 number_s 次成功的概率。

 

二项分布的特征:

1.进行n次相同条件下的相互独立的重复试验

2.每次试验,只有2个结果,成功或者失败

3.出现成功的概率P每次试验是相同的,失败的概率q也是,并且p+q=1

如果符合上面的条件,那就是二项分布,如果上述试验只进行一次,就叫做伯努利试验,也是就二项分布是n次伯努利试验的结果。

二项分布的均值和方差分别为np和npq

 

泊松分布

泊松分布是二项分布的极限

在n重伯努利实验中,当成功的概率很小,实验次数很大时,二项分布可近似等于泊松分布。泊松分布适合于描述单位时间内随机事件发生的次数。

在实际应用中,当p<=0.25,n>20,np<=25时,用泊松分布近似二项分布的效果良好

 泊松分布的期望方差均为

 

 

 

 

函数介绍

=POISSON.DIST(65,B8,TRUE)

POISSON.DIST(x,mean,cumulative)

POISSON.DIST 函数语法具有下列参数:

  • X 必需。 事件数。
  • Mean 必需。 期望值。
  • cumulative 必需。 一逻辑值,确定所返回的概率分布的形式。 如果 cumulative 为 TRUE,则 POISSON.DIST 返回发生的随机事件数在零(含零)和 x(含 x)之间的累积泊松概率;如果为 FALSE,则 POISSON 返回发生的事件数正好是 x 的泊松概率密度函数。

2 连续型随机变量的概率分布

 

正态分布

 

 

μ是分布曲线的最高峰的位置(集中趋势)

σ标准差是离散程度的度量(离散趋势)

正态分布是具有对称性的

标准正态分布:均数为0,标准差为1的正态分布N(0,1)曲线下面积分布规律。

其曲线下概率面积分布规律非常常用

​    95% 99%
双侧 1.96 2.58
单侧 1.64 2.33

95%的情况下最常用

 

举个栗子,详细看看如何根据正态分布计算区间范围

某零件的长度服从正态分布,平均长度为10mm,标准差为0.2mm,问: 从该批零件中随机抽取一件,其长度不到9.4,mm的概率是多少?

计算过程

使用Excel如何计算

=NORMDIST(9.4,10,0.2,TRUE)

函数介绍

NORMDIST(x,mean,standard_dev,cumulative)

NORMDIST 函数语法具有下列参数:

  • X 必需。 需要计算其分布的数值。
  • Mean 必需。 分布的算术平均值。
  • standard_dev 必需。 分布的标准偏差。
  • cumulative 必需。 决定函数形式的逻辑值。 如果 cumulative 为 TRUE,则 NORMDIST 返回累积分布函数;如果为 FALSE,则返回概率密度函数。

正态分布的经验法则

 

 

 

 

卡方分布

多个标准正态分布的平方和,卡方分布在实际应用中主要是解决方差相关的问题

 

 

 

 

 

 

 

 

 

t分布

t分布就是标准正态分布除以均方的根,主要用于处理小样本问题

 

 t分布图像

 

 

F分布

均方之比,用来对比两个方差

 

 

 

 

 

 

样本均值的抽样分布

 

 

 

 

两个样本均值之差的抽样分布

比如想要知道湖北和湖南的人均收入水平高低,就可以通过比较两省的均值之差来判断

 

 

 

 

样本比例的抽样分布

比如想要知道中国人中男性的占比。就可以多次抽样,通过样本比例来推断总体比例

 

数学期望和方差

 

 

 

 

样本方差的分布

 

 

两个样本方差比的分布

X \sim N(\mu_1,\sigma_1^2),Y \sim N(\mu_2,\sigma_2^2),且X与Y独立,X_1,X_2,\cdots,X_n是来自X的样本,Y_1,Y_2,\cdots,Y_n是来自Y的样本,\bar{X}\bar{Y}分别是这两个样本的样本均值,S_1^2S_2^2分别是这两个样本的样本方差,则有

  1. \frac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2} \sim F(n_1 - 1, n_2 - 1)
  2. \sigma_1^2 = \sigma_2^2 = \sigma^2\frac{\bar{X}-\bar{Y}-(\mu_1 - \mu_2)} { \sqrt{\frac{(n_1 - 1)S_1^2+ (n_2 - 1)S_2^2}{n_1+n_2-2}} {\sqrt{\frac{1}{n_1} + \frac{1}{n_2} } }} \sim t(n_1 + n_2 -2)

 

样本均值方差比的分布

X_1,X_2,\cdots,X_n是来自正太总体N(\mu,\sigma^2)的样本,\bar{X}S^2分别是样本均值和样本方差,则有\frac{\bar{X}-\mu}{S / \sqrt{n}} \sim t(n - 1)

 

统计推断

从数据得到关于现实世界的结论的过程就叫做统计推断(statistical inference)

目前比较成熟,用的最多的就是对于均值的推断

应用场景:

基于配件A的领用历史数据,我们能否估计出其总体日均领用量的大致范围?

参数估计

点估计:样本均数直接作为总体均数。一个点估计量的可靠性是由它的抽样标准误差来 衡量的,这表明一个具体的点估计值无法给出估 计的可靠性的度量

区间估计:根据响应标准误的大小,按照一定的可信度给出一个总体参数可能的取值范围。该区间被称为可信区间。比如,某班级平均分数在75~85之间,置信水平是95%

 

 

区间估计图示

 

 

 

 估计量的求法

 

 

 

 

 

 

 

 

 

 

 1.总体均值的区间估计,总体方差已知

 

 

 

 

 

 

 

 

 

 

 

 

 

2.总体比例的区间估计

 

3.总体方差的区间估计,用卡方分布

 

 

 

 

 

两个总体的区间估计

 

 

 

 

4.两个总体均值之差的区间估计

 

 

假设检验

对提出的一些总体假设进行分析判断,做出统计决策。基于小概率反证法,小概率原理,即认为小概率事件在一次随机抽样中不会发生

 

 

 

 

双侧检验

 

 

单侧检验

 

 

 提出假设