统计学基础之参数估计

时间:2024-02-19 14:48:01

目录:

一、点估计

  1、矩估计法

  2、顺序统计量法

  3、最大似然法

  4、最小二乘法

二、区间估计

  1、一个总体参数的区间估计:

  • 总体均值的区间估计
  • 总体比例的区间估计
  • 总体方差的区间估计    

  2、两个总体参数的区间估计:

  • 两个总体均值之差的区间估计
  • 两个总体比例之差的区间估计
  • 两个总体方差比的区间估计  

三、样本量的确定

  1、估计总体均值时样本量的确定

  2、估计总体比例时样本量的确定


 一、点估计

点估计是用样本统计量来估计总体参数,因为样本统计量为数轴上某一点值,估计的结果也以一个点的数值表示,所以称为点估计。

点估计和区间估计属于总体参数估计问题。何为总体参数统计,当在研究中从样本获得一组数据后,如何通过这组信息,对总体特征进行估计,也就是如何从局部结果推论总体的情况,称为总体参数估计

由样本数据估计总体分布所含未知参数的真值,所得到的值,称为估计值。点估计的精确程度用置信区间表示。
当母群的性质不清楚时,我们须利用某一量数作为估计数,以帮助了解母数的性质。如:样本平均数乃是母群平均数μ的估计数。当我们只用一个特定的值,亦即数线上的一个点,作为估计值以估计母数时,就叫做点估计
点估计目的是依据样本X=(X1、X2…Xi)估计总体分布所含的未知参数θ或θ的函数g(θ)。一般θ或g(θ)是总体的某个特征值,如数学期望、方差、相关系数等。

1、矩估计法

利用样本矩来估计总体中相应的参数。首先推导涉及感兴趣的参数的总体矩(即所考虑的随机变量的幂的期望值)的方程。然后取出一个样本并从这个样本估计总体矩。接着使用样本矩取代(未知的)总体矩,解出感兴趣的参数。从而得到那些参数的估计。

最简单的矩估计法是用一阶样本原点矩来估计总体的期望而用二阶样本中心矩来估计总体的方差。在寻找参数的矩法估计量时,对总体原点矩不存在的分布如柯西分布等不能用,另一方面它只涉及总体的一些数字特征,并未用到总体的分布,因此矩法估计量实际上只集中了总体的部分信息,这样它在体现总体分布特征上往往性质较差,只有在样本容量n较大时,才能保障它的优良性,因而理论上讲,矩法估计是以大样本为应用对象的。

如果总体中有 K个未知参数,可以用前 K阶样本矩估计相应的前k阶总体矩,然后利用未知参数与总体矩的函数关系,求出参数的估计量。

2、顺序统计量法

顺序统计量设是总体X的样本,将它们自小到大排成,则这个排列称为样本顺序统计量。抽取一个样本,便有一组自小到大的观察值

与之相对应,其中
是观察值中最小者,
是观察值中最大者。例如,样本值为3.15,2.98,3.16,3.05,2.90,则其顺序统计量为2.90,2.98,3.05,3.15,3.16 
顺序统计量估计法 顺序统计量估计法是直观简便的估计法,常常是对总体的数学期望与标准差进行。
为总体X的样本顺序统计量,则称样本中位数。样本中位数
的观察值
的取值规则是:将样本观察值
自小到大排成顺序统计量观察值
,当n为奇数(即n=2k+1)时,
取居中的数据
;当n为偶数(n=2k)时,
取居中两个数据的平均值
,即
从中位数的含义可见,它带来了总体X取值的平均数信息,因此,用于估计总体X的数学期望是合适的。用样本中位数
估计总体X的数学期望的方法,称数学期望E(X)的顺序统计量估计法。其结果也有估计量与估计值之分。

3、最大似然法

  给定一个概率分布D,假定其概率密度函数(连续分布)或概率聚集函数(离散分布)为fD,以及一个分布参数θ,我们可以从这个分布中抽出一个具有n个值的采样X1,X2,...,Xn,通过利用fD,我们就能计算出其概率:。但是,我们可能不知道θ的值,尽管我们知道这些采样数据来自于分布D。如何估计θ?一个自然的想法是从这个分布中抽出一个具有n个值的采样X1,X2,...,Xn,然后用这些采样数据来估计θ。找到一个关于θ的估计。最大似然估计会寻找关于 θ的最可能的值(即,在所有可能的θ取值中,寻找一个值使这个采样的“可能性”最大化)。这种方法正好同一些其他的估计方法不同,如θ的非偏估计,非偏估计未必会输出一个最可能的值,而是会输出一个既不高估也不低估的θ值。要在数学上实现最大似然估计法,定义可能性:
并且在θ的所有取值上,使这个函数最大化。这个使可能性最大的值即被称为θ的最大似然估计

4、最小二乘法

 

 

 观测值就是我们的多组样本,理论值就是我们的假设拟合函数。目标函数也就是在机器学习中常说的损失函数,我们的目标是得到使目标函数最小化时候的拟合函数的模型。举一个最简单的线性回归的简单例子,比如我们有m个只有一个特征的样本:

 

 

 

 样本采用下面的拟合函数:这样我们的样本有一个特征x,对应的拟合函数有两个参数θ0和θ1需要求出。

目标函数为:

 

 

 用最小二乘法做什么呢,使J(θ0,θ1)最小,求出使J(θ0,θ1)最小时的θ0和θ1,这样拟合函数就得出了。

参考:https://www.cnblogs.com/pinard/p/5976811.html


二、区间估计

区间估计是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。与点估计不同,进行区间估计时,根据样本统计量的抽样分布可以对样本统计量与总体参数的接近程度给出一个概率度量

1、一个总体参数的区间估计:转自:https://blog.csdn.net/liangzuojiayi/article/details/78043658

  • 总体均值的区间估计
  •  

     

  • 总体比例的区间估计
  •  

     

  • 总体方差的区间估计
  •  

     

     

     

        

2、两个总体参数的区间估计:转自:https://blog.csdn.net/liangzuojiayi/article/details/78044718

  • 两个总体均值之差的区间估计
  • 大样本
  •  

     小样本

  •  

     

     

     

  • 两个总体比例之差的区间估计
  •  

     

  • 两个总体方差比的区间估计
  •  

     

     

     


三、样本量的确定 : 转自:https://blog.csdn.net/rosa_zz/article/details/79562794

•样本容量:

样本中个体的数目或组成抽样总体的单位数。

•必要样本容量:

亦称必要样本单位数,是指满足调查目的要求的情况下,至少需要选择的样本单位数。

1、估计总体均值时样本量的确定

1.重复抽样

一旦确定了置信水平(1-α),Zα/2的值就确定了,对于给定的的值和总体标准差σ,就可以确定任一希望的允许误差所需要的样本容量。令E代表所希望达到的允许误差,即:

 

由此可以推到出确定样本容量的公式如下:

 

2.不重复抽样

 

•样本容量n与总体方差成正比,
•与绝对误差成反比,
•与概率度成正比。

例:拥有MBA学位的研究生年薪的标准差大约为4000 元,假定想要估计年薪95%的置信区间,希望允许误差为10000 元,应抽取多大的样本容量?

2、估计总体比例时样本量的确定

1.重复抽样

一旦确定了置信水平(1-α),Zα/2的值就确定了。由于总体比例的值是固定的,所以允许误差由样本容量来确定,样本容量越大允许误差就越小。估计的精度就越好。因此,对于给定的的π值,就可以确定任一希望的允许误差所需要的样本容量。令E代表所希望达到的允许误差,即:

 

由此可以推导出重复抽样和无限总体抽样条件确定样本容量的公式如下:

 

2.不重复抽样

 

•d的取值一般小于0.1
•π未知,以样本比例p替代
•π或p都未知时,可取0.5,这是一种谨慎估计

例:某社区想通过抽样调查了解居民参加体育活动的比率,如果把误差范围设定在5%,问如果以95%的置信水平进行参数估计,需要多大的样本?

 

 确定样本容量的注意事项

一、在实际中采用不重复抽样,但常用重复抽样下的公式代替;

二、若和p未知,其处理方式是:

        1.用过去近期的数据代替,

        2.用样本数据代替,

        3.取p=0.5或最接近0.5的值;

三、对同一总体,若求出的Nx,Np不等,这时取较大的作为必要样本容量,

        以同时满足做两种调查的需要;

四、在实际工作中,常使用重复抽样下的简单随机抽样公式。