方差和标准差是概率与统计学里经常用到的知识
在网上看到不少关于方差的研究和讨论,所以这里整合一下
方差和标准差的区别
一般来说方差的公式是(σ^2)S^2=……
而标准差则是将方差开根号S(σ)=……
由于方差和标准差差一个根号,所以接下来我主要介绍样本方差和母体方差,样本标准差和母体标准差的区别可以依样画葫芦
样本方差和母体方差的区别
这里我先举一个例子简单的说明一下
假设我们要开发疫苗需要对10000样本进行分析,这时我们需要对样本的一个特性值进行方差分析,由于机械的数量有限和时间紧迫,我们只能抽取其中的1000组进行估计分析,那我们第一步进行每一项与平均数(1000个样本的)做差的平方求和,如下
按照方差的定义我们接下来只要除以一个数就可以得到方差
这时我们试着除以1到n的每一个数,我们这n个结果将结果都保留下来
这时如果你去将10000样本全部进行分析,然后按照高中里的标准求方差的公式求结果,你会发现这个结果会接近我们1000个样本估计分析时的除以n-1时的结果(先不要吃惊和迷惑,下面就会讲解为什么)
所以我们高中里学的公式其实是母体方差
而抽样的方法则是样本方差
注意S是样本方差,σ才是母体方差
要解释为什么是除以n-1而不是除以n,那我们就要扯到二者的关系(概率论与统计的知识)
以下两图推理来自于大佬https://www.sohu.com/a/245370205_99916544?spm=smpc.content.share.1.1583725392654GUA6MlE#comment_area
注意:上图的S^2和σ^2的位置颠倒了
这就解释了样本方差和母体方差的公式关系
那么我们高中学的方差(母体方差)是整么表示出来的呢
我们称样本方差无偏估计值计算式,母体方差纯在偏估计值计算
样本方差和母体方差的使用
那么什么时候该用样本方差,什么时候应该使用母体方差呢
一般来说,我们要以样本的一小部分来估算整体的时候,存在估算(不确定)这个概念的时候就是样本方差
而我们对每一组数据都是已知的情况,再算方差时,就是母体方差,毕竟数据都已经确定了
如果涉及到样本的离散程度,那么就要用母体方差(个人认为要涉及样本的离散程度是一个精确的问题,而不是估计)
在结果要求不精密的计算里头n-1和n的区别不大(因为样本数量多,n会很大)
总的来说,在数据研究和人工智能、科学研究里头所说的方差一般是S(样本方差),即除以n-1
参考文献
https://zhidao.baidu.com/question/2058213861483942347.html
https://baike.baidu.com/item/方差/3108412?fr=aladdin
https://www.sohu.com/a/245370205_99916544?spm=smpc.content.share.1.1583725392654GUA6MlE#comment_area
https://baike.baidu.com/item/标准差公式/7238847