《爱上统计学》是一本统计学的入门书,涵盖了统计学的基本知识。
概率与分布
硬币的例子
推论统计的基础就是概率。当发生的概率很低的情况出现时,我们认为肯定是原有假设(零假设)出错了。
下面硬币的例子推翻了“硬币均匀”的假设,因为概率低于0.05(显著水平)。
正态曲线
68-95-99.7
推论统计
检验方法
比如:p<0.05的显著性水平,指的是拒绝虚无假说接受研究假说犯错误的概率小于0.05。换句话说,A和B本来没有差异,有小于5%的几率因为其他外部因素(未知的影响变量、取样误差等等)造出AB之间有差异导致我们拒绝了虚无假说。
零假设不能直接检验,只应用于总体。总体不能够直接检验。
两个群体的差异只是由于C引起的,但事实上不能确定,因为有无穷多的影响因素,我们无法控制所有变量,因此也就有了误差的存在。
统计显著性本身或者内部可能是毫无意义的。比如假定留级项目以半分之差显著地提高了学生的考试成绩,那么你是否愿意将学生留级呢。
实际数据肯定是有差异的,关键目的是判断出差异是由于外部的干扰因素引起的,还是真正由所测量的变量引起的。
显著性检验基于的事实:每一类型的零假设都与特定的统计类型联系在一起,每一种统计类型都与特定的分布联系在一起。首先,需要从样本中获得数据的分布,然后依据样本的特征与检验的分布特征的比较,可以推断样本特征是否不同于预期的随机分布特征。
零假设的等式陈述反映偶然性。实际值大于预先设定的检验值,那么就说明统计检验的结果不是随机变动的结果。这样才能说发现的差异不是随机结果,一定是由于处理因素引起的。
如果实际值没有超过临界值,那么说明你发现的差异可能是偶然因素或者其他你没有控制的因素引起的,这时候接受零假设是最好的结果。
Type1为0.05意思是100次中有5次我会拒绝真实的零假设,显著性水平只用于单一的、独立的零假设检验,而不是多元检验。
参数检验
两个独立群体均值的t检验
概述
两个群体的t检验,不同群体的均值检验
t检验用于独立均值。
两个相互独立的群体在一个或多个变量的均值上是否有差异。
举例:研究200个澳大利亚学生和200个印度学生的肥胖程度,使用独立均值的t检验,结果是差异在0.0001的显著水平上式显著地,这意味着这种差异由于群体本身之外的因素引起的几率非常地小,群体本身的因素值的是民族文化种族等。
几乎每一个统计检定都有特定的假设支持检验的使用。例如,t检验的一个主要假设是两个群体中每个群体的变化的量是相同的,也就是方差齐性假定。
假定的破坏有可能得到自相矛盾的结果。
*度近似于样本规模。n1+n2-2
效应量
t检验检验出差值后,利用效应量判断差值的大小。
效应量。
是对两个群体之间如何相互不同的测量——对处理问题规模的测量。
统计显著地发现只是分析工作的一半,另一半是效应的规模。
总结:t检定量与预定的显著水平的t统计量比较。如果大,拒绝零假设,表明除了偶然因素之外的因素(也就是我们研究的因素)发挥了作用表现了差异。如果小,说明数据中的差异可能是由于偶然因素或者非目标因素引起的,不足以使我们推翻虚无假设但也不表明虚无假设一定正确。
相关群体均值的t检验
非独立均值检验
配对样本的检验
*度是样本规模或者群体规模的近似值。
简单方差分析
处理两个以上群体的显著性检验,相当于多个独立样本的t检验
F统计量的建立者是fisher
叫方差分析的原因是:分析既包括了组内变量的方差,也包括了组件变量的方差。
方差分析的公式比较组间变化与组内变化的比率。当F变大,说明方差主要是由于组间变化引起的,更可能受到随机因素外的影响。
两个群体的f值等于两个群体t值得平方
!!!
false discovery rate
如果有5个群体进行了简单方差分析,发现了差异,接着两两组合进行独立群体的t检验,共10次。
这么做并不对,这叫做多元t检验。不能进行多元t检验,因为多元t检验对应的f检验的显著程度很大。
检验之后还需要进行分析,以找到差异的位置,可以进行Bonferroni分析。
方差分析必须进行事后分析。
析因分析
两元素方差分析
factorial analysis of variance
相比方差分析,增加了一个额外的因素。
主效应和交互效应
可能出现主效应都不显著但是交互效应显著的情况
相关系数
统计量是:相关系数的t检验
只是检验变量之间的关系,不涉及到群体之间的差异。
先获得皮尔森相关系数,然后对相关系数进行检定。
*度是n-2
相关系数的平方可以确定一个变量可以解释另一个变量方差的程度。
a和b的相关系数是.393,但是决定系数是.154,表示b可以解释a的方差只有15.4%,还有很大一部分不能被解释,表明在这两个变量关系中还有其他很重要的因素在发挥作用。
正如:你看到的并不总是你得到的。
线性回归
利用相关关系,利用一个变量去估计另外一个变量。
如果两个变量的相关关系越大,那么其共享的成分就越多(或者说一个变量解释另一个变量的r^2部分更大),那么根据其中一个变量就能够更好地了解另外一个变量。如果r=1,那么估计也就变成了完全估计。
考虑多元回归
增加的变量必须对于预测Y有独特的贡献。也就说Y的一部分X1并不能解释,这时候期望新增加的X2可以解释。
选择多元变量的原则:
1.只选择一个时,要使其与Y尽可能相关,也就说其能够更好地解释Y.
2.选择多个时,要保证选择相互独立的变量(重合程度小),但是每个变量都和Y相关,这样总体加起来才能解释更多的Y,也就是每个X对于估计Y都有独特的贡献。
检验和测量
信度和效度
测量工具的选择——测量工具已经建立并且具有可接受的信度和效度水平。
检验和测量课程的知识
回顾数据的pipeline,收集分析解释。很重要的一步就是确定数据是你所要的数据,表示你所想知道的内容。
比如:研究贫困问题时,要确保用于评估贫苦的测量工具能够真实地反映贫困。
信度:我怎么知道我每一次使用的检验、量表和工具等都能够发挥作用?
它是有用的
效度:我怎么知道我每一次使用的检验、量表和工具等都能够测量我想要测量的内容。
它能够测量需要的内容
!
如果收集数据的工具是不可信(信度)和无效的(效度),那么任何检验的结果都不会有结论。
测量尺度
测量尺度四种形式
定类:性别;种族;政党背景。 准确水平最低的测量。
定序:bad,good,very good。 知道有差距,但是不知道差距多大。
定距:10个单词测验正确地个数、温度、身高。 1+1=2.尺度上每个间距都相等。可以加减不可以乘除。
定比:年龄。测量尺度中绝对零值的存在。 在心理学和生物学可能有不存在属性特征的情况,比如绝对零值(无分子运动)或零光程。 但是在社会和行为科学中,即使拼写成绩为0并不意味着相关属性的缺失,不意味着你的拼写能力就是0了。
测量尺度是有层次的。
层次越高,搜集的数据越准确,数据中包含的细节与信息也就越多。例如,对穷富的判断。既可以搜集穷人富人的频数,也可以搜集各自的收入。
高层次的测量尺度包含低层次测量尺度的特性。
信度
信度概述
信度——再做一次直到得到正确的值。
使用的测量工具的测量结果可以保持一致性。
分析考试成绩,考试成绩这个测量工具A,用来测量考生的掌握水平B,但是两者永远不会相等的。
错误总是不经意的,墨菲定律告诉我们世界并不完美。
看到的观察值可能接近真实值,但是很少相同。
观察值=真实值+误差
考试的误差可能是房间温度,复习时间。
我们的目标是,改进测量工具,例如改善考试环境并且使大家得到充分地睡眠,题目涵盖了基本考点,这样的话误差就会减小。
减小误差,增大信度,这样观察值才能和真实值匹配。
误差越小,信度越大。
信度的不同类型:
再测信度(test-retest reliability)
测试在不同时间是否可信,计算相同测试两次值之间的相关系数
在三月份与六月份分别对同一个班的学生进行考试,保证测量工具条件以及测量对象一致,只有时间是不一致的。
平行形式信度
一个测试的几种不同形式是否可信或者是否等价
测试内容相同,形式不同。
例如,一个测量记忆的项目需要两天完成。第一天有一个词汇表,第二天有一个词汇表。很明显,词汇表不能够相同。但是希望两个词汇表应该尽可能地类似。
也是计算相关系数
内在一致性信度
一个测试的项目是否评价一个而且只评价一个维度
确定测试中的项目是否彼此一致,都只表示一个维度、一个结构、一个关注领域。
对不同类型的医疗保健的态度测试,想确保这一组5个项目都是对态度而不是对其他的测试。
计算的逻辑是:总分很高的测试者在每个项目上的得分应该也很高,如果出现有的项目高有的项目低,那么该项目的测量结果不一致。
克隆巴赫系数。
评分者信度
一个观察结果的评价是否具有一致性
两个评分者对观察结果判断一致性程度的测量
解释信度系数:
信度系数是正向的
信度系数都很大
类似相关系数的解释
不可信怎么办:
信度代表观察值产生误差多少的函数,信度越小,误差越大。
效度
信度值得是工具是可信的,可以重复的,测量值与真实值之间的误差比较小。
但是,可信不一定有效。
效度,就是工具能够测量要测量的内容的性质,例如考试测量历史知识,那么内容应该就是历史内容。否则,如果内容是地理的话,虽然信度很高(可以重复,相关系数大),但是并不是我们研究的方向。
效度类型
内容效度(content validity)
历史考试,找一个历史老师问一下这些内容可不可以代表学生的历史能力
准则效度(criterion validity)
评价测试是否反映现在和未来的一组能力。
准则在现在,是同步效度(concurrent criterion validity)。比较现在的相关
准则在未来,是预测效度(predictive concurrent validity)。比较未来的相关
例如:评判烹饪技能。
建构效度(construct validity)
内在的评价指标
信度与效度的关系:
效度的最大值等于信度系数的平方。
也就是说,测试的效度受到测试的信度的局限。
先检验信度(测试的一致性),保证良好信度的基础上再检验效度。
不能建立效度怎么办
非参数检验
使用非参数检验很重要的原因是:所研究的变量在测量方面的性能。(考虑均值和频数的性能)
大多数分类,即频数的数据,都需要用到非参数检验。(分类数据更适合非参数检验)
如果这种情况,可以根据样本规模选择合适的非参数估计。
对参数检验的review:
参数检验大多都是稳健和强有力的,即使假定之一不成立但是参数检验的结果仍然是有效的。
参数检验的假定:
参数检验几乎都假定数据集有确定的特征。例如,独立与非独立的t检验的一个假定就是每个群体的方差是齐性的活着是类似的(否则没有办法相减比较差值量)。
大多数参数检验的另一个假定是样本要大到足够代表群体。一般来说大于30足以。
但是,如果样本规模过小不大于30并且相关假定(例如方差齐性)不满足。
那么,研究问题还得继续提出和回答。
因此,使用非参数估计(自有分布估计),不需要预先知道群体的参数。
单样本卡方检验
单样本卡方,可以看到你在频数分布中观察到的结果是否是随机预期的结果。
卡方检验的原理是:知道群体的数量,那么很容易地计算出各个层级上的数量(如果是随机分布的情况下),然后在与真实的情况作比较。如果预期与真实的没有差异,也就是说真实的也是随机分布的结果,那么卡方值为0.
单样本卡方检验有一个常用的名称——拟合优度。这个词的含义是:用实际的频数表,能否去很好地拟合随机分布的频数表。如果拟合的概率很小(超过了显著水平),那么就说实际的层次间是有差异的,是统计显著地,并且根据统计的犯错的概率小于p。
其他非参数检验
使用非参数检验很重要的原因是:所研究的变量在测量方面的性能。(考虑均值和频数的性能)
大多数分类,即频数的数据,都需要用到非参数检验。(分类数据更适合非参数检验)
如果这种情况,可以根据样本规模选择合适的非参数估计。
其他统计过程
多元方差分析
都符合“两个以上群体的平均值比较”
MANOVA用于不止一个依赖变量的情况。
使用多元技术可以相互独立地估计独立变量对5个子量表中每个变量的影响。
重复测量的方差分析
协方差分析
允许将群体之间最初的差异等量。
多元回归
因子分析
路径分析
结构方程模型