书籍信息:《Statistics》David Freedman等
直觉上容易犯错的点:
实验设计:如何靠“双盲”做到实验的公正性;注意观察实验和控制实验的差别,重视观察实验的局限性和细节上容易产生的误导性。
相关性:相关性不等于线性相关,相关系数不能很好的度量非线性相关;相关性不等于因果性;统计量的相关性不等于个体的相关性,往往会放大相关性。
回归效应:回归线和SD线不重合,所以错用SD线做预估时会发现数据项平均值偏移。SD线满足“交换律”但回归线不满足。
大数定律:SE(标准误差)计算公式是否对所有分布的随机事件都适用?(本书只提供经验结论,未给出证明推到)
中心极限定理:概率论中讨论随机变量序列部分和分布渐近于正态分布的一类定理
测量结果的随机性:“机会存在于测量过程中,而不是在被测量的实物中。”
公式:
回归线斜率/SD线斜率=无通用公式,要看具体的case
和的SE=n^0.5*SD (其中,n为重复次数)
均值的SE=和的SE/n
二值随机事件的SD = (A-B)(Pa*Pb)^0.5 (其中,A为较大值,B为较小值,Pa为A的概率,Pb为B的概率)
不放回抽样的SE=修正因子*放回抽样的SE
其中,修正因子=((盒子中的票数-抽取的票数)/(盒子中的票数-1))^0.5
检验统计量:用来度量数据与原假设下的期望值两者之间的差距的量。
Z-值:Z=(观察值-期望值)/SE
正态曲线估计置信区间的经验值:要求测量不少于25次,较少的测量建议使用t-检验
显著水平P:得到与观察值同样或更加极端的统计量的机会。
统计显著的=5%,高度显著的=1%
T检验:
模型假设:随机又放回地从盒子中抽取少量票,盒子内容均值为0,SD未知。 测量结果=抽取结果+常量(被测量值)。
SD+=(测量值个数/(测量值个数-1))^0.5*测量值的SD
t=(抽取的平均数-C)/SE (其中SE使用SD+代替SD计算)
*度=测量次数-1
针对不同的*度会有各自的概率图标来拟合概率直方图,从而得到P值估计。
检验方式的选择:
样本规模(大):正态近似
样本规模(小)-误差盒内含的直方图为(细节未知的类似正态分布):学生氏曲线
-误差盒内含的直方图为(已知)-(很接近正态分布):使用正态近似
-(与正态分布不同):寻找其他统计学方式
两个独立标量见的标准误差计算:
SE(A-B) = (SE(A)^2+SE(B)^2)^0.5
K方值=SUM((观察频数-期望频数)^2/期望频数)
当模型完全指定(没有参数需要估计)时,*度=K方中的项数-1
K方检验回答数据是否与从一只所装内容已知的盒子中随机抽取的结果一致。
Z检验回答数据是否与从一只平均数给定的盒子中随机抽取的结果一致。
当检验一张m*n表(不具有有关概率的其他约束)中的独立性时,有个(m-1)*(n-1)*度。
概念:
SD:Standard Deviation 标准(偏)差 - 数据集的数据分散程度
SE:Standard Error 标准误差 - 测量/样本统计量的分散程度(也是偏离真实值的程度)
原假设:null hyperthesis
备择假设:alternative hyperthesis