•两独立样本T检验的目的是利用来自两个正态总体的独立样本,推断两个总体的均值是否存在显著差异。
区别于配对样本T检验,独立样本T检验是来自两个独立样本,或者被同一样本数据的二分类变量分配的两个样本;配对样本是同一样本数据,不同环境。
一、验证两独立样本数据是否符合正态分布(分析-描述统计-探索),若不符合对数据进行处理,若符合进行第二步;
关注正态分布结果:
(1)单样本的K-S检验是用来检验一个数据的观测经验分布是否是已知的理论分布。当两者间的差距很小时,推断该样本取自已知的理论分布。
作为零假设的理论分布一般是一维连续分布 F(如正态分布、均匀分布、指数分布等),有时也用于离散分布(如Poisson分布)。即H0:总体X 服从某种一维连续分布 F。检验统计量为:
(2)Shapiro—Wilk检验法是S.S.Shapiro与M.B.Wilk提出用顺序统计量W来检验分布的正态性。统计量:
H0:总体服从正态分布
(3)两种检验的选择:
•样本量小于2000时看shapiro-wilk的检验结果,精度高。
•kolmogorov-smimov适合大样本,一般大于2000。
•对于此两种检验,如果P值大于0.05,没有理由说样本数据不服从正态分布。
•由下表得出结论:三国样本数据中,文官和武将两类数据均服从正态分布,可以进行两独立样本T检验
二、分析-比较均值-两独立样本T检验;选项-置信水平;定义组-输入分类数据;
三、输出结果;
第一步:下表可以看出,文官和武将之间武力的样本平均值很大的差距。通过假设检验应推断这种差异是抽样误差造成的还是系统性的。
第二步:First,两总体方差是否相等的F检验。这里,该检验的F统计量的观测值为42.595,对应的概率P-值为0.000。在0.05显著性水平下,由于概率P-值小于0.05,可以认为两总体的方差有显著差异,即两总体方差是不相等的。原假设:方差相等。
Second,两总体均值的检验。在第一步中,由于两总体方差不相等,因此应看第二行T检验的结果。其中T统计量的观测值为27.188,对应的双尾概率P-值为0.000。如果显著性水平为0.05,由于概率P-值小于0.05,因此认为两总体的均值有显著差异,即文官和武将之间武力的样本平均值存在显著差异。
表中的第七列和第八列分别为T统计量的分子和分母;第九列和第十列为两总体差的95%置信区间的上限和下限。