统计学基础-数值型数据

1.什么是统计学，什么是描述统计，什么是推断统计

- 统计学（statistics）：收集、处理、分析、解释数据并从数据中得出结论的科学。
- 描述统计（discriptive statistics）:研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。
  
  描述统计其实就是对数据进行总体特征的概述，例子：说一下班级这次考试的情况如何
- 推断统计（inferential statistics）:是研究如何利用样本数据来推断总体特征的统计方法
  
  推断统计其实是建立在描述统计的基础之上，在对总体数据有了大致的了解之后，运用一些分析方法，对数据进行预测，并达到统计决策的目的，其实不管是在统计学上，还是在实际的业务分析中，我们做分析的终极目的就是用来得出我们结论，应用于决策。例如：房价预测，通过预测数据来进行销售，用户看到房价走势，如果一路走高，是不是要提早下手

2.统计研究的步骤

设计

全过程最关键的一步，良好的开端是成功的一半选题--明确研究目的--提出假设--明确总体范围--确立观察指标--控制研究中的偏移--给出具体的研究方案

收集

收集数据，来源数据库，问卷等

整理

数据整理非常重要，现在的数据处理工具也比较好用，一定要把数据清洗干净，数据清洗好了才能得出正确的结论

分析

统计描述：了解样本数据的情况，是全部工作的基础，是尽量精确、直观而全面的对所获得的样本进行呈现

统计推断：从样本信息外推到总体，以获得对所感兴趣问题的解答

参数估计：样本-->所在总体特征

3.描述统计

集中趋势

高峰组段在什么位置

均数（mean）：总体均数和样本均数，受极值的影响很大

中位数（Median）：将全体数据从小到大排列，在整个数列中处于中间位置的那个值就是中位数。不受极端值的影响，在具有个别极大或极小值的分布数列中，中位数比均数更具有代表性

中位数的应用场景：对于对称性的数据，优先均数，仅仅对于均数不能使用的情况才使用中位数加以描述。

众数：一组数据当中，出现次数最多的那个数，工作中用的很少

Excel怎么操作

使用函数，还有更方便的操作，讲完离散趋势再说

均数：average()

中位数：median()

众数：mode()

离散趋势

数据分布范围是什么，分散程度如何

离均差：x-μ 个体偏离均值的程度

总体方差：离均差平方和/样本量

总体标准差：方差开根号

样本标准差：　

　　存在的问题：

　　　　1.测量尺度的相差太大：例如蚂蚁和大象的体重变异

　　　　2.计算单位不同：比较身高和体重的变异程度

　　变异系数

　　变异系数解决了不同样本变异程度对比的问题

配件A的变异系数 = 7.6/13.5 = 0.562963
维修费的变异系数 = 120.7/247.9 = 0.48689

二者有一定差异，但是差的不多，还算保持一致

百分位数: 是一个位置指标，用Px表示，一个百分位数Px将一组观察值分为两部分，理论上有x%的观察值比它小，有（100-x）%的观察值比它大，适用于各种分布

四分位数：P25、P50和P75分位数分别称作下四分位数，中位数上四分位数

Excel怎么实现

使用函数

方差：var.s(num1,num2,....)

标准差：stdev.s(num1,num2,....)

变异系数：标准差/均值

百分位数：percentile.inc(array,k)

四分位数：quartile.inc(array,k)

分布形状

是否对称，分布曲线的形状

偏度系数正态正偏态负偏态
峰度系数正态平阔峰尖峭峰

分布特征

偏态峰态

Excel怎么实现

使用函数

偏度：skew()

峰度：kurt()

4.推断统计

利用样本数据来推断总体特征的统计方法

从样本信息外推到总体，以最终获得对所感兴趣问题的解答

1 分类变量

无序分类变量：说明事物类别的一个名称，如性别有男女两种，二者无大小之分，无顺序之分，还有如血型、民族等

有序分类变量：也是说明事物类型的一个名称，但是有次序之分，例如：满意度分为满意一般不满意，三者是有顺序的，但是无大小之分

2 数值型变量

连续型变量：取值范围是一个区间，它可以在该区间中连续取值，即连续型变量可以取到区间中的任意值，并且有度量单位。例如：身高、年龄、体重、金额

离散型变量：取值范围是有限个值或者一个数列构成的，表示分类情况，如：企业数量产品数量等

小概率事件：在统计学中，如果随机事件发生的概率小于或等于0.05，则认为是一个小概率事件，表示该事件在大多数情况下不会发生，并且一般认为小概率事件在一次随机抽样中不会发生，这就是小概率原理。小概率原理是推断统计的基础。

3 随机变量

随机事件的数量化

比如：还是抛硬币，出现正面，我们定义为“成功”，记为1，出现反面定义为“失败”，记为0,，那{0，1}就是本次实验的结果的量化值，为随机变量

离散型随机变量：随机变量X可以一一列举出来，在一定区间范围内X是有限个，可数的

连续型随机变量：随机变量X无法一一列举，在一定区间范围内是无限个,

4 总体和样本

总体：根据研究目的确定的所有个体某指标观察值（测量值）的集合

样本：在一个较大范围的研究对象中随机抽出一部分个体进行观察或预测，这些个体的测量值构成的集合称为样本。

5 随机抽样

随机抽样的本质：每个个体最终是否入选在抽样进行前是不可知的，但是其入选的可能性是确切可知的（每个个体被抽到的概率是相等的）

6 总体参数和统计量

总体参数：刻画总体特征的指标称为总体参数，例如：总体均值（μ），总体标准差（σ）,总体比例（π）

统计量：刻画样本特征的指标称为统计量，例如：样本均值（x-bar），样本标准差（s），样本比例（p）

但是往往总体参数都是不可知的，我们经常会通过样本统计量去估算总体参数。

7 抽样误差

由随机抽样造成的样本统计量与总体指标之间的差异称为抽样误差（sampling error）。虽然在一次抽样研究中的抽样误差大小是随机的，但是抽样误差在概率意义下有规律可循

概率分布

随机变量的概率存在一定的规律，这个规律叫做概率分布，但是离散型随机变量和连续型随机变量的规律并不相同，离散型随机变量的概率分布有：二项分布、泊松分布；连续型随机变量的概率分布：正态分布。

1 离散型随机变量的概率分布

二项分布

Excel计算方式：

=BINOM.DIST(2,5,0.5,FALSE)

函数介绍

BINOM.DIST(number_s,trials,probability_s,cumulative)

BINOM.DIST 函数语法具有以下参数：

Number_s 必需。试验的成功次数。
Trials 必需。独立试验次数。
Probability_s 必需。每次试验成功的概率。
cumulative 必需。决定函数形式的逻辑值。如果 cumulative 为 TRUE，则 BINOM.DIST 返回累积分布函数，即最多存在 number_s 次成功的概率；如果为 FALSE，则返回概率密度函数，即存在 number_s 次成功的概率。

二项分布的特征：

1.进行n次相同条件下的相互独立的重复试验

2.每次试验，只有2个结果，成功或者失败

3.出现成功的概率P每次试验是相同的，失败的概率q也是，并且p+q=1

如果符合上面的条件，那就是二项分布，如果上述试验只进行一次，就叫做伯努利试验，也是就二项分布是n次伯努利试验的结果。

二项分布的均值和方差分别为np和npq

泊松分布

泊松分布是二项分布的极限

在n重伯努利实验中，当成功的概率很小，实验次数很大时，二项分布可近似等于泊松分布。泊松分布适合于描述单位时间内随机事件发生的次数。

在实际应用中，当p<=0.25,n>20,np<=25时，用泊松分布近似二项分布的效果良好

泊松分布的期望和方差均为

函数介绍

=POISSON.DIST(65,B8,TRUE)

POISSON.DIST(x,mean,cumulative)

POISSON.DIST 函数语法具有下列参数：

X 必需。事件数。
Mean 必需。期望值。
cumulative 必需。一逻辑值，确定所返回的概率分布的形式。如果 cumulative 为 TRUE，则 POISSON.DIST 返回发生的随机事件数在零（含零）和 x（含 x）之间的累积泊松概率；如果为 FALSE，则 POISSON 返回发生的事件数正好是 x 的泊松概率密度函数。

2 连续型随机变量的概率分布

正态分布

μ是分布曲线的最高峰的位置(集中趋势)

σ标准差是离散程度的度量(离散趋势)

正态分布是具有对称性的

标准正态分布：均数为0，标准差为1的正态分布N(0,1)曲线下面积分布规律。

其曲线下概率面积分布规律非常常用

　　 95% 99%
双侧 1.96 2.58
单侧 1.64 2.33

95%的情况下最常用

举个栗子，详细看看如何根据正态分布计算区间范围

某零件的长度服从正态分布，平均长度为10mm，标准差为0.2mm,问：从该批零件中随机抽取一件，其长度不到9.4,mm的概率是多少？

计算过程

使用Excel如何计算

=NORMDIST(9.4,10,0.2,TRUE)

函数介绍

NORMDIST(x,mean,standard_dev,cumulative)

NORMDIST 函数语法具有下列参数：

X 必需。需要计算其分布的数值。
Mean 必需。分布的算术平均值。
standard_dev 必需。分布的标准偏差。
cumulative 必需。决定函数形式的逻辑值。如果 cumulative 为 TRUE，则 NORMDIST 返回累积分布函数；如果为 FALSE，则返回概率密度函数。

正态分布的经验法则

卡方分布

多个标准正态分布的平方和，卡方分布在实际应用中主要是解决方差相关的问题

t分布

t分布就是标准正态分布除以均方的根，主要用于处理小样本问题

t分布图像

F分布

均方之比，用来对比两个方差

样本均值的抽样分布

两个样本均值之差的抽样分布

比如想要知道湖北和湖南的人均收入水平高低，就可以通过比较两省的均值之差来判断

样本比例的抽样分布

比如想要知道中国人中男性的占比。就可以多次抽样，通过样本比例来推断总体比例

数学期望和方差

样本方差的分布

两个样本方差比的分布

设 $X \sim N(\mu_1,\sigma_1^2),Y \sim N(\mu_2,\sigma_2^2)$ ，且X与Y独立, $X_1,X_2,\cdots,X_n$ 是来自X的样本， $Y_1,Y_2,\cdots,Y_n$ 是来自Y的样本， $\bar{X}$ 和 $\bar{Y}$ 分别是这两个样本的样本均值， $S_1^2$ 和 $S_2^2$ 分别是这两个样本的样本方差,则有

$\frac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2} \sim F(n_1 - 1, n_2 - 1)$
若 $\sigma_1^2 = \sigma_2^2 = \sigma^2$ $\frac{\bar{X}-\bar{Y}-(\mu_1 - \mu_2)} { \sqrt{\frac{(n_1 - 1)S_1^2+ (n_2 - 1)S_2^2}{n_1+n_2-2}} {\sqrt{\frac{1}{n_1} + \frac{1}{n_2} } }} \sim t(n_1 + n_2 -2)$