严格的说这本书是在2013年12月去*的飞机上开始看的,前面几章讲得比较浅显,几乎没有什么公式,后面读起来就有点不太容易了,里面的一些统计的例子挺有意思,第9、10、12章涉及到一些概念和公式,就需要慢慢理解了,总体看来这本书还是非常适合统计学入门,拥抱大数据时代!
第1章 统计学是大数据时代最炙手可热的学问
学习统计学的意义是什么?用我自己的话来说,可以让我们不被淹没在浩瀚的数据海洋中,而在其中找出反映其本质的规律或相关性来。
在未来10年内统计学家将会成为“性感的职业”。
作者列举了一些例子来说明统计学的用处:棒球运动员的击球率,学生的平均成绩,用小概率事件来识别考试作弊,吸烟与癌症有相关性吗,哪些人最有可能是*?
统计学更像是侦探们做的事,数据里隐藏着线索和模型,沿着这些线索和模型,我们最终能够得到有意义的结论。
统计分析可以找到2个变量之间的相关关系,但不代表两者有因果关系。
ACTION:看看电影《犯罪现场调查:回归分析》
ACTION:看《统计数字会撒谎》
第2章 描述统计学
这一章从简单的平均数(mean)的概念讲起,然后说到中位数(meadian)、百分位数,再介绍标准差(sd,standard deviation)、方差(var,variance)。对于任何一组数据来说,只要知道了平均数和标准差,我们就能进行简单的统计学分析,得出一些可以依赖的结论。
平均数很容易受到异常值的干扰;中位数对异常值并不敏感。
需要指出的是书中的标准差公式的分母是N,而如果统计数据是样本时,分母就要用N-1。
对于表2-2中的第一组数字,用R语言分析一下:
a<-c(74,66,68,69,73,70)
sd(a)
会得到3.03315,而不是书中的2.8。
第3章 统计数字会撒谎
马克吐温的一句名言:“谎言有三种:谎言、该死的谎言,以及统计学”
小心统计陷阱。即使最为精确的计算或测量都应该检查一下是否符合常识。
平均数和中位数同样会被心术不正的人利用。
“某一政策将使9200万人享受减税待遇,人均减税超过1000元。”小心这里的“人均”,少数的富翁会大幅减税,会拉高平均值,而大多数人仅仅减税100元。
统计的时间跨度较大时,要考虑“通货膨胀”这个重要因素。
纽约州的“记分卡”制度,对接受心脏搭桥手术的病人的死亡率进行统计,并向公众公开,以便让公众选择医生时有一个参考。但这样一个“好”政策,却导致了更多病人的死亡。因为,降低死亡率的最简单易行的办法就是拒绝为那些病情严重的病人动手术。
第4章 相关性与相关系数
相关系数为一个-1到1之间的数,负数表示负相关,0.8-1.0:极强相关,0.6-0.8:强相关,0.4-0.6:中等程度相关,0.2-0.4:弱相关,0.0-0.2:极弱相关或无相关。
这一章后面第79页的例子,我用R语言算了一下:
height <- c(74, 66, 68, 69, 73, 70, 60, 63, 67, 70, 70, 70, 75, 62, 74)
weight <- c(193, 133, 155, 147, 175, 128, 100, 128, 170, 182, 178, 118, 227, 115, 211)
画散点图:
plot(height, weight)
计算相关性(这里是用的皮尔逊Pearson相关系数)
cor(height, weight)
得到结果:0.8260258
可以用cor.test得到更详细的信息:
cor.test(height, weight)
结果:
Pearson\'s product-moment correlation
data: height and weight
t = 5.2841, df = 13, p-value = 0.0001479
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.5439174 0.9403758
sample estimates:
cor
0.8260258
第5章 概率与期望值
提到了三个概念:概率、期望值和大数定理。
从统计学角度,购买保险是一项“糟糕的投资”,因为平均来看,你支付给保险公司的钱永远要比得到的赔付多,所以只需为那些无法轻松承受的意外上保险。
第6章 蒙提•霍尔悖论
讲了一个选1、2、3号门中大奖的有趣的概率问题,你对概率的本能理解可能会将你引入歧途。
第7章 黑天鹅事件
从美国金融行业风险价值VaR模型的崩溃,谈到一些常见的与概率有关的错误。
想当然地认为事件之间不存在联系。两个飞机引擎发生故障可能并不是彼此独立的事件。一个家庭中发生多起婴儿猝死案,可能不一定谋杀,而可能与基因有关。
对两件事件的统计独立一无所知。“赌徒谬论”。连扔了8次正面,下次正面的概率仍为50%。投篮里没有“手感”之说。
检方谬误的DNA的例子没看懂。
统计性歧视。男女的保险费不一样,是来源于统计模型。
第8章 数据与偏见
书中说了许多种偏见,但更有用的是“选择性偏见”,要想得到一个简单随机抽样的样本并不容易。其它几种偏见我没有什么感觉:发表性偏见、记忆性偏见、幸存者偏见、健康用户偏见。
第9章 中心极限定理
样本<—>总体。一个大型样本的正确抽样与其所代表的群体存在着相似关系。
样本平均值是符合正态分布的。
书中第164页给出的标准误差公式是错误的,不知道是翻译的错误还是印刷的问题,少了一个除号,应该是:SE = s / sqrt(n)
正好有一份孩子全年级数学成绩,全年级平均大概为94分,用R语言试试中心极限定理,可以看出样本的平均值是分布在94两旁。
(对于小型样本,得不到正态分布,而是t分布)
# 读入成绩单
score <- read.table("scores.txt", header=TRUE)
# 试验100次,每次随机抽取60名学生
mean.samples <- NULL
for(i in 1:100)
mean.samples <- c(mean.samples, mean(sample(score$math,60)))
hist(score$math)
hist(mean.samples)
第10章 统计推断与假设检验
统计学无法确凿地证明任何东西,统计推断的力量在于:先发现一些规律和结果,然后再利用概率来证明这些结果的背后最有可能的原因。
零假设(也称为虚无假设,Null Hypothesis),零假设的内容一般是希望证明其错误的假设。
如果能够证明某个零假设不成立,那么其对立假设(又称为备择假设Alternative Hypothesis)肯定为真。
书中关于亚特兰大统考作弊丑闻、自闭症脑量的2个例子值得看看。
置信区间在一个标准差内为68%,两个标准差内为95,三个标准差内为99.7%。
第11章 民意测验与误差幅度
民间测验一般都会得到一些百分比结果。关于百分比的标准误差 = sqrt( p * (1-p) / n),p为某种观点的比例。
里面关于美国大选民意测验的例子,对我们没有什么意义,民意测验的真正挑战有两个:设计并选取正确的样本(人群的选取、问题的选择、受访者会不会是在说假话,或是敷衍了事);用恰当的方式从该样本中获取合适的信息。
第12章 回归分析与线性关系
回归分析能够在控制其他因素的前提下,对某个具体变量与某个特定结果之间的关系进行量化。
在R语言中lm可以轻松地进行线性关系的拟合,我把整个年级的物理与数学成绩进行线性回归分析:
phy.math <- lm(phy ~ math, score)
plot( phy.math )
得出了几幅专业的图形,可惜我暂时还看不明白。
一个经验法则:当回归系数至少是标准误差的两倍或以上的时候,该系数极有可能具有统计学意义。(还不太明白)
本章的最后给出一个挺有意思的统计结论:对*部分的男性或女性来说,对工作缺乏控制力和话语权会导致心脏病。
第13章 致命的回归错误
回归分析的7个常见错误:
1)用线性拟合来分析非线性关系
2)相关关系并不等于因果关系
3)因果倒置
4)遗漏了重要的解释变量
5)存在高度相关的两个解释变量
6)脱离数据进行推断。忘记了前提条件或适用范围,而乱套公式。
7)数据矿(变量过多)。假如变量过多,尤其当无关变量过多的时候,回归分析的结果就会被冲淡或稀释。
第14章 项目评估与“反现实”
精心设计出一组实验并不太容易。