统计方法
参数估计概览
估计量与估计值
估计量:用于估计总体参数的随机变量
估计值:估计参数时计算出来的统计量的具体值
参数点估计
用样本的估计量的某个取值直接作为总体参数的估计值
例如:用样本均值直接作为总体均值的估计;
用两个样本均值之差直接作为总体均值之差的估计。
无法给出估计值接近总体参数程度的信息
虽然在重复抽样条件下,点估计的均值可望等于总体真值,但由于样本是随机的,抽出一个具体的样本得到的估计值很可能不同于总体真值。
一个点估计量的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点估计值无法给出估计的可靠性的度量。
矩估计法
借助样本矩去估计总体的矩,得到总体相应的未知参数的估计值。
1 .用样本的一阶原点矩来估计总体的均值μ
2 .用样本的二阶中心矩来估计总体的方差σ2
极大似然估计法
点估计的评价准则
无偏性
估计量抽样分布的数学期望等于被估计的总体参数
无偏估计指的是所有可能样本估计值的数学期望等于待估总体参数
有效性
对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效
一致性
随着样本量的增大,估计量的值越来越接近被估计的总体参数
区间估计
在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减抽样误差而得到的。
根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量。
置信水平
置信区间
由样本统计量所构造的总体参数的估计区间称为置信区间
统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间
用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值
我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个
总体参数以一定的概率落在这一区间的表述是错误的
例:重复构造出μ的20个置信区间
影响区间宽度的因素
当样本量一定时,置信区间的宽度随着置信系数的增大而增大。
当置信水平一定时,置信区间的宽度随着样本的增大而减小。
区间估计的步骤
以总体均值的区间估计为例:
区间估计的内容
总体均值的区间估计(大样本)
例子:
为了估计目前北京市场二手房交易的平均价格,制定相应的营销策略,某房地产中介公司在2005年第四季度的二手房交易中,随机抽取40个交易作为样本,得到二手房交易价格如下表所示(单位:万元)。
假定房地产中介公司从上季度的二手房交易记录中得到以下信息:交易价格的标准差为15万元,于是我们假定总体标准差σ=15。试在95%的置信水平下估计二手房平均价格的置信区间。
答案:
一家保险公司收集到由36个投保人组成的随机样本,得到每个投保人的年龄(单位:周岁)数据如下表。试建立投保人年龄90%的置信区间。
总体均值的区间估计(小样本)
t 分布
t 分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的分布依赖于称之为*度的参数。随着*度的增大,分布也逐渐趋于正态分布。
*度
1.当样本统计量被计算出以后可以*改变的观测值数目
2.举例
3个数之和是 6
X1 = 1(或其他数)
X2 = 2(或其他数)
X3 = 3(不能改变)
Sum=6
*度df=n-1=2
例题
沿用上例,假定该房地产公司在某日随机抽取16位二手房购买者,得到二手房交易价格如下表所示(万元)。
根据以往交易情况得知:二手房交易价格服从正态分布,但总体方差未知。
试在95%的置信水平下估计二手房交易平均价格的置信区间。
已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16只,测得其使用寿命(单位:h)如下。建立该批灯泡平均使用寿命95%的置信区间。
单一总体均值的区间估计总结
当正态总体的方差未知时,在大样本条件下,估计总体均值使用的分布是正态分布。
当正态总体的方差未知时,在小样本条件下,估计总体均值使用的分布是t分布。
当正态总体的方差已知时,在小样本条件下,估计总体均值使用的分布是正态分布。
当正态总体的方差已知时,在大样本条件下,估计总体均值使用的分布是正态分布。
对于非正态总体,在大样本条件下,估计总体均值使用的分布是正态分布。
两个总体均值之差的区间估计(大样本)
例题
沿用上例。从2006年初开始,北京二手房交易价格急剧攀升。为对比2006年第一季度与2005年第四季度二手房平均价格的差异,该房地产中介公司从2006年第一季度的交易中随机抽取36个,得到二手房交易价格如下表所示(单位:万元) 。
将以上数据和引例中2005年第四季度二手房交易价格进行整理,得到:
根据以上数据,试以95%置信水平估计2006年第一季度与2005年第四季度的二手房交易平均价格差值的置信区间。
某地区教育管理部门想估计两所中学的学生高考时的英语平均分数之差,为此在两所中学独立抽取两个随机样本,有关数据如表。试建立两所中学高考英语平均分数之差95%的置信区间。
总体比例的区间估计
某城市想要估计下岗职工中女性所占的比例,随机地抽取了100名下岗职工,其中65人为女性职工。试以95%的置信水平估计该城市下岗职工中女性比例的置信区间。
总体方差的区间估计
沿用上例,假定二手房的交易价格服从正态分布。试在95%的置信水平下估计二手房交易价格方差的置信区间。
样本容量的确定
假定E (Error)是在一定置信水平下允许的误差范围,又称边际误差,于是有:
沿用上例,假定房地产中介公司想要估计2005年第四季度二手房的平均交易价格。按照历史经验,总体标准差为15万元。试问:在95%的置信水平下,使二手房平均交易价格的误差范围小于5万元,样本容量应定为多少?
拥有工商管理学士学位的大学毕业生年薪的标准差大约为2000元,假定想要估计年薪95%的置信区间,希望估计误差为400元,应抽取多大的样本量?
根据以往的生产统计,某种产品的合格率约为90%,现要求估计误差为 5% , 在 求95%的置信区间,应抽取多少个产品作为样本?