新手必看!统计学知识大梳理
你的“对象” 是谁?
o“对象”按照维度分为了两大类:统计学,概率论。
一维:就是当前摆在我们面前的“一组”,“一批”,哪怕是“一坨”数据。这里我们会用到统计学的知识去研究这类对象。
二维:就是研究某个“事件”,笔者认为事件是依托于“时间轴”存在的,过去是否发生,现在是可能会出现几种情况,每种情况未来发生的可能性有多大?这类问题是属于概率论的范畴。
分析就像在给 “爱人” 画肖像
o“集中趋势—代表值”,“分散和程度”
对“数据”的描述性分析
o1.集中趋势量度:
为这批数据找到它们的“代表”
均值(μ)
均值的局限性
o“若用均值描述的数据中存在异常值的情况,会产生偏差”
中位数
中位数,又称中点数,中值。
o是按顺序排列的一组数据中居于中间位置的数。
众数
众数是样本观测值在频数分布表中频数最多的那一组的组中值。
o2.分散性与变异性的量度
全距=max-min
全距的局限性
o若数据中存在异常值的情况,会产生偏差
差
方差
标准差
标准分——表征了距离均值的标准差的个数
关于“事件”的研究分析
o1.一个事件的情况
事件:
有概率可言的一件事情,一个事情可能会发生很多结果,结果和结果之间要完全穷尽,相互独立。
概率:
每一种结果发生的可能性。所有结果的可能性相加等于1,也就是必然!!!
概率分布:
我们把事件和事件所对应的概率组织起来,就是这个事件的概率分布。
期望:
表征了综合考虑事情的各种结果和结果对应的概率后这个事情的综合影响值。
(一个事件的期望,就是代表这个事件的“代表值”,类似于统计里面的均值)
方差:
表征了事件不同结果之间的差异或分散程度。
o2.细说分布
“离散型”数据和“连续性”数据差异
离散型分布
这三类离散型的分布,在“0-1事件”中可以采用,就是一个事只有成功和失败两种状态。
连续型分布
连续型分布本质上就是求连续的一个数据段概率分布。
正态分布
of(x)----是该关于事件X的概率密度函数
o
μ — 均值
o
σ^2 —方差
o
σ —标准差
o
绿色区域的面积 —该区间段的概率
o正态分布概率的求法
step1 — 确定分布和范围 ,求出均值和方差
step2 — 利用标准分将正态分布转化为标准正态分布 (还记得 第一部分的标准分吗?)
step3 —查表找概率
o离散型分布 → 正态分布 (离散分布转化为正态分布)
o3.多个事件的情况:“概率树”和“贝叶斯定理”
多个事件就要探讨事件和事件之间的关系
对立事件:
o如果一个事件,A’包含所有A不包含的可能性,那么我们称A’和A是互为对立事件
穷尽事件:
o如何A和B为穷尽事件,那么A和B的并集为1
互斥事件:
o如何A和B为互斥事件,那么A和B没有任何交集
独立事件:
o如果A件事的结果不会影响B事件结果的概率分布那么A和B互为独立事件。
条件概率(条件概率,概率树,贝叶斯公式)
已知B事件发生的条件下,A事件发生的概率
概率树
o— 一种描述条件概率的图形工具。
贝叶斯公式 ----提供了一种计算逆条件概率的方法
o当我们知道A发生的前提下B发生的概率,我们可以用贝叶斯公式来推算出B发生条件下A发生的概率。
关于“小样本”预测“大总体”
o1.抽取样本
总体:
你研究的所有事件的集合;
样本:
总体中选取相对较小的集合,用于做出关于总体本身的结论;
偏倚:
样本不能代表目标总体,说明该样本存在偏倚;
简单随机抽样:
随机抽取单位形成样本。
分成抽样:
总体分成几组或者几层,对每一层执行简单随机抽样
系统抽样:
选取一个参数K,每到第K个抽样单位,抽样一次。
o2.预测总体(点估计预测,区间估计预测)
如何求置信区间?
图例
(t分布)
我们之前的区间预测有个前提,就是利用了中心极限定理,当样本量足够大的时候(通常大于30),均值抽样分布近似于正态分布。若样本量不够大呢?这是同样的思路,只是样本均值分布将近似于另一种分布处理更加准确,那就是t分布。
(卡方分布)
卡方分布的定义
o若n个相互独立的随机变量ξ、ξ、……、ξn ,均服从标准正态分布,则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布。
卡方分布的应用场景
o
用途1:用于检验拟合优度。
也就是检验一组给定的数据与指定分布的吻合程度;
o
用途2:检验两个变量的独立性。
通过卡方分布可以检查变量之间是否存在某种关联:
o3.验证结果(假设检验)
假设检验是一种方法用于验证结果是否真实可靠。具体操作分为六个步骤。
两类错误
第一类错误:
o拒绝了一个正确的假设,错杀了一个好人
第二类错误:
o接收了一个错误的假设,放过了一个坏人
即使我们进行了“假设检验”依然无法保证决策是百分百正确的,会出现两类错误
相关与回归(y=ax+b)
o线性回归
散点图:
显示出二变量数据的模式。
相关性:
变量之间的数学关系。
线性相关性:
两个变量之间呈现的直线相关关系。
最佳拟合直线:
与数据点拟合程度最高的线。
(即每个因变量的值与实际值的误差平方和最小)
误差平方和SSE:
o
线性回归法:
求最佳拟合直线的方法(y=ax+b),就是求参数a和b
斜率a公式:
b公式:
期望:
这三类离散型的分布,在“0-1事件”中可以采用,就是一个事只有成功和失败两种状态。
当我们知道A发生的前提下B发生的概率,我们可以用贝叶斯公式来推算出B发生条件下A发生的概率。
关于“小样本”预测“大总体”
正态分布
“对象”按照维度分为了两大类:统计学,概率论。
(卡方分布)
标准差
斜率a公式:
标准分——表征了距离均值的标准差的个数
概率分布:
b公式:
图例
条件概率(条件概率,概率树,贝叶斯公式)
我们之前的区间预测有个前提,就是利用了中心极限定理,当样本量足够大的时候(通常大于30),均值抽样分布近似于正态分布。若样本量不够大呢?这是同样的思路,只是样本均值分布将近似于另一种分布处理更加准确,那就是t分布。
— 一种描述条件概率的图形工具。
假设检验是一种方法用于验证结果是否真实可靠。具体操作分为六个步骤。
“集中趋势—代表值”,“分散和程度”
均值(μ)
对“数据”的描述性分析
两类错误
方差
关于“事件”的研究分析
参考文献:
- 新手必看!统计学知识大梳理(附框架图&公式)
- https://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247499582&idx=1&sn=e9b250dd438e0433386e71db14d3d74f&chksm=e9e1f6b5de967fa30982c10b028d4b7d8d84e549c24a0ae8020c1314a3a2bf4889756aaf8b14&mpshare=1&scene=1&srcid=&sharer_sharetime=1582706620792&sharer_shareid=a12c15ddef863cf656d340c52b1b88f5#rd