数据分析统计基础篇

时间:2024-04-12 15:05:59

本文基于MT5756 Data Analysis 复习笔记。禁止未经本人同意任何形式的转载,如有需要请联系[email protected]



第一章 介绍


对统计学的理解:


相比传统数学观念,统计学包含了data management, display和summary的技巧。下为一现代对统计学的理解:statistics is the sicence of collecting, organisating, and interpreting numerical facts, which we call data", Moore and McCabe(2003). 


统计学investigation一般步骤:


1. 清楚阐述待解决问题。目的是什么?

2. 收集/生产数据(以何种方式,需要多大的量)

3. 筛选、探索数据(对于不是本人收集的数据尤为重要)

4. 计算fomal statistical summeries并且进行检验

5. 探索之前分析中假设的敏感性(建模一定要有假设)

6. 交流汇总 (最困难,因为涉及到对非专业人士的讲解汇报)


第二章 采样 Sampling


* 什么是模型 Model呢?

outcome =(model) + error    

                 = signal + noise


1. 一些术语 preliminary terminology

(1)sample unit: 采样个体

(2)target/population: 总体,即我们想调查的全部个体,例如,我们想知道全校女生的平均身高,那么全校女生的身高就组成了一个总体

(3)sampling protocol or design: 从总体中采样的程序

(4)sample: 被我们使用的总体的部分。例如上例,想要知道全校女生的身高是耗费巨大精力的,不必要的,所以我们抽取一部分女生的身高代表全校女生的身高,进行平均值的计算,从而估计全校女生身高。

(5)Census: 普查,即sample = population

(6)variable 变量:通常用小写罗马字母定义,用来表示个体的特性(如:身高、体重等)

(7)parameter 参数:对于总体的数值总结(nummeric summary),通常用希腊字母表示,例如平均值用μ表示

(8)estimate/statistic: 对于变量的数值总结(nummeric summary),通常用小写罗马数字表示

(9)bias (in an estimate): 有偏估计,系统误差,由于仪器、实验本身所依据的理论、公式的近似性、测量者的生理特点(如反应速度)等造成——摘自百度

(10)imprecision(in an estimate):不精确估计,偶然误差,由于偶然因素对测量本身引起。——应该也是摘自百度的


下图为bias(inaccurate)和precise(high variability)的关系,红点为预测结果,我们的目的是让红点在靶心处(如第一行左一)


数据分析统计基础篇



2. 产生数据的三种方式:

1. 采样 sample

2. 观察 Observational study

3. 设计实验 designed experiments

这三种不同的方式直接导致了数据预测的能力各有优缺点。这里详细讲一下观察和实验。



Cause and effect, observation, and experimentation

1. 术语介绍

实验单元:被实验的个体

个体subjects: 当实验单元为人类时,被称为subjects

treatment: 实验采取的措施

factors:实验中的解释变量

response variable: 响应变量,即被测量的量

placebo:与有作用措施(effective treatments)类似的无所用的措施

control group: 不采取措施的实验

confounding variable/factor: 混淆变量:与自变量和因变量均相关的变量,该变量会使得解释变量和依赖变量产生虚假关系,例如在探索癌症病发率和收入关系的时候,混入了年龄这个变量。


2. 实验VS观察

实验和观察的主要两个区别是:实验中个体一定会被设定使用某种措施;观察研究中,个体只会顺其自然地拥有treatment;观察研究一般都是可以追溯retrospective的——因为在我们使用某种措施之前,它已经存在了。


相比观察研究,随机试验randomised experiment的好处就是赋予我们了讨论原因的能力(the ability to argue for causation)。在观察实验中,我们无法确定是什么影响了响应变量,无法明确排除混淆变量的存在。


3. 一个好的实验的原则

(1)随机化

experimental unites are randomly assigned to particular treaments,尽量减小随机错误(imprecision)

(2)复制replication

对于同一种措施,至少两个实验个体作为样本

确保实验个体的数量至少是措施数量的两倍

当实验个体数量上升时,对于措施的度量估计的精确度也应该上升【重点】

控制变量能帮助提升精确度

对控制组使用placebos

双盲实验:自己不知道自己是对照组还是实验组,减小心理因素的影响


4. 对于混淆变量的修复

首先,能从实验设计上消除混淆变量当然好;如果不行,就进行变量控制来比较



常见数据收集错误

1. Anecdotal evidence 把奇闻异事当做数据收集,例如“我见过尼斯湖水怪”

2. 自主选择或自愿参与的样本(self-selected or voluntary responses samples)

杂志报纸等很喜欢做这种采样,但是通常愿意花时间自主参与这种采样的人通常都对主题有着鲜明的态度(喜爱或者憎恶),会导致结论有所偏颇。

3. Quota samples 配额抽样:指调查人员将调查总体按照一定标志分类或分层。

这里要跟分层抽烟stratified sampling区分,分层抽样是合理科学的:分层后按随机原则在层内抽样。

比如某高中参加摸底考试,配额抽样就是校长选取了尖子班35人去考试;分层抽样就是从所有5个班级(ABCED班这种,嗯无歧视)中抽取7人参加。


什么是好的采样习惯呢

1. 有计划的随机性 planned randomness, 随机性在统计学中有着至关重要的地位

2. 对于给出的任意样本,他们被选中的概率都是可计算的


SRS 简单随机采样 simple random sample对于给定N个个体,从中抽取n个作为样本,每个个体被抽取的概率都是相等的


Systematic sample (with a random start) 系统采样:初中学的那个,给定1000个样本,从中抽取100个。首先将其分为1000/100=10组,从第一组中随机抽取一个编号3的样本,之后在每个样本都抽取编号为3的那个。(这个方法通常比简单随机抽样简单、便宜、能达到近乎一样的效果甚至更好)


系统抽样Stratified Random Sample


3. 采样的bias

(1)无回应偏差 Nonresponse bias,当在对人采样的时候,很容易出现的情况就是人们不愿意提供所有信息给你。原因是多种多样的,可能是因为硬件条件:手机网不好等等,也可能因为就是不喜欢这个调查。如果要测量的变量对于有/无回应很敏感,这可能就会造成误差

(2)question wording effects,这是一个误导问题。比如你本来想问的意思是A,但是因为设置的题目不当,答题者误认为了B的意思,就会导致偏差。

(3)response bias,采样者的表现会影响响应变量,比如采样者在投放问卷时很粗鲁很无礼,自然会有人不好好填的


第三章 数据类型和单变量的探索


通常数据有两种类型:定量数据和定性数据(quantitave and qualitative)


定量数据包括了连续数据(理论上数据的取值是无穷的)和离散数据(count data 计数数据,理论上可以无穷大,但是是可计数的)


定性数据又称为categorical data,分类数据,它也包括了两类:

ordinal: 非数值的,但是有排序,例如:优良差

nominal: 无序的,只用来形容数据特性,如红黄蓝颜色


注意:在数据展示方便,3D除了看起来酷炫,没什么用,甚至会产生误导。在我的CSDN博客”数据可视化”相关文章中讲到过。


第四章 总结统计 summary statistic


1. 平均值 mean和中位数 median(众数为mode)


平均值求法:

数据分析统计基础篇


对于outlier, 平均值是敏感的;而中位数和众数是不敏感的。


下图为平均数和中位数的关系:

(1)当数据分布是对称的,平均数=中位数

(2)当数据分布左偏(right skewed),平均数大于中位数

(3)当数据分布右偏(left skewed),平均数小于中位数


对于高度偏移的数据(例如房价,收入),使用中位数来观测效果更好

数据分析统计基础篇


2. 比例 proportions

对于小样本,比例并不能很好说明问题。例如,公司一共只有四个人参加了调查,三男一女,我们不能说公司的男女比就是3:1.


3. spread(不知道怎么翻译)

对于传播速度spread,我们有很多方法都可以来度量它:范围,分位数,标准差(方差)


这里主要说一下标准差的计算:(原谅我飘逸的字体)

这里有一个重点就是标准差下面除的是n-1,而不是我们应该认为的n。这里除n-1是为了让标准差是无偏的。



数据分析统计基础篇


下面是大概的演算过程 (摘自知乎用户 马同学 关于“为什么样本方差(sample variance)的分母是 n-1?”的回答 https://www.zhihu.com/question/20099757)



(1)假设x的期望μ已知,方差未知:


数据分析统计基础篇

这个结果符合我们的直觉,这种情况下方差是无偏的。


(2)但是情况往往是期望μ未知,那么我们用样本均值x 拔代替μ:


数据分析统计基础篇

除非x拔与μ相等,否则会有:


数据分析统计基础篇

那么,在未知μ的情况下,用n-1替换,恰好有:

数据分析统计基础篇



第四章 双变量总结

一般使用双变量是为了探索两个变量的关系,我们有解释变量y和响应变量x,跟小时候学的一样。


简单线性回归 Y= β0+β1X+e, e为error,服从均值为0,方差为σ^2的正态分布,之前在机器学习笔记里提到过,这里不再详述。之后会在《统计建模》复习笔记里从统计角度详细讲这个模型。


第五章 概率和概率函数

大致就是一个初高中知识的复习。


概率是数学用来量化不确定性的一个分支。


并集:union

交集: intersection

补集:complement

还有一个我忘了术语了,大概就是不包括,相交为空:exclusive or disjoint


公理放在明天的博客中好啦 回家啦~