总体,个体,抽样,样本,样本容量
开博第一篇先回顾下数据分析涉及到的统计学中最基本的概念,包含了以下几个概念:总体,个体,抽样,样本,样本容量。
1 总体
本小节所探讨的总体的概念,特指在统计学中的“总体”。统计学中的“总体”,或称统计总体(population),简称总体,指要调查或统计某一现象或事物全部数据的集合。
例如,我们要统计具有*国籍的中国公民(这里简称中国人)的年龄,那么所有中国人的年龄,就是我们研究和统计的总体;再例如,我们要统计国内互联网从业人员的年薪,那么这些国内互联网从业人员的年薪,就是我们研究的总体;再例如,淘宝公布的“女人胸越大越败家”的调查结论,我们要分析女人胸的大小与败家的相关性,那么所有在淘宝上有购买胸罩的女人的购买记录(包括购买的胸罩的大小,以及此购买人最近一年或半年的总消费额),就可以作为我们研究的总体。
总体有三个性质,以下作一个简单的说明,并以“女人胸越大越败家”做例子讲解。
(1) 大量性,是指需要研究的总体的数目巨大。例如研究“女人胸越大越败家”,就需要淘宝上所有购买胸罩的女人的交易记录。
(2) 同质性,是指总体中研究的每一个数据(也称个体)彼此之间有相同的性质,例如因为是淘宝公布的结论,所以研究数据都是取自淘宝,也即是在淘宝上的消费记录,而非京东;并且这些购买记录中都有消费胸罩这一项,不能拿购买裤子的记录与购买胸罩的数据分析。
(3) 变异性,是总体中研究的每一个数据之间,也是有差异的。例如每条购买记录是不同的人操作,都买了不完全相同的胸罩大小,有不同的消费额,特定的某一个数据(个体),其总消费金额也是有差异的等等。
2 个体
个体,指需要研究的总体中一个特定的主体。
以探讨总体时举的例子,我们要统计具有*国籍的中国公民(这里简称中国人)的平均年龄,那么总体中的一个主体,或者说一个数据,例如题主的年龄--26岁,就是在这个总体--所有中国人的年龄--中的一个样本;同理,某一个特定的互联网从业人员,如某个阿里数据分析师的工资,也是国内互联网从业人员的年薪中的一个特定的主体,也即个体;同理,每一个购买胸罩的消费记录(和前两个例子中的年龄和工资等一维数据构成一个个体不同,购买记录可能会包含多维数据,例如:胸罩大小,此购买人最近一年或半年的总消费额等,这些多维数据共同构成了一个研究的个体),就成为了我们研究女人胸的大小与败家的相关性中的一个个体。
3 抽样
举一个例子,要检验某食品的出厂合格率,理想的做法,是打开所有总体--食品--的包装,检测总体中每一个个体--也即具体的每一盒食品--是否合格,再计算出出厂合格率。但这显然是不现实的,因为打开所有包装并检查的成本过大。
这时我们需要从总体中抽选部分个体构成一个集合(也成为样本,样本中个体的数目小于总体数目),如果抽取的集合中的个体能较全面,无偏地反映出总体的信息,就可以认为该抽样是有效的。
抽样按照个体是否放回可以分为有放回抽样和无放回抽样,有放回抽样指从总体中抽取一个个体并记录该抽样结果后,再将该个体放回至总体中;无放回抽样指从总体中抽取一个个体并记录该抽样结果后,不再放回该个体。二者区别就在于,有放回抽样可能抽取重复的个体,而在无放回抽中不存在这种情况。
按具体的抽样方法分类,可以分为简单随机抽样,分层抽样,比例抽样,等距抽样,系统抽样等。
4 样本,样本容量
样本是总体的一部分,它是由从总体中按一定程序抽选出来的那部分总体单位--也即个体--所组成的集合。那么这个集合中,个体的数目称为样本容量。
例如统计国内互联网从业人员的年薪,我们经过抽样获得了淘宝,百度,腾讯等互联网公司从业人员的10000条薪资记录,那么这10000条薪资记录就构成了我们研究的一个样本,10000为该样本的样本容量。同理,分析女人胸的大小与败家的相关性,经过抽样获得的5000条消费记录,就构成了一个样本,5000为该样本的样本容量。
那么样本与抽样的关系,就可以理解为抽样是过程,抽得的样本是结果。最终得到的样本,也需要尽量能全面地反映出总体的特性,例如统计国内互联网从业人员的年薪,如果只统计了淘宝,百度,腾讯三家公司,肯定是不能代表整个互联网从业人员的年薪,因此可以认为该样本并不是能有效反映总体的抽样样本。
最后用一个例子作为今天讲解概念的总结:
要研究一所拥有10000名学生的大学中,学生的平均身高。我们从10000名学生中随机抽取了100名学生作为调查对象,那么:
1 总体:10000名学生的平均身高;
2 个体:某一个学生的身高,例如,学号为00001的学生的身高;
3 抽样:从10000名学生中随机抽取了100名学生作为调查对象(样本)的过程;
4 样本:抽取的100名学生的身高数据;
5 样本容量:100
*******************************************************************
版权所有,转载请注明出处
欢迎大家就数据分析、数据挖掘相关问题与我沟通交流。
E-mail:humengnju@sina.com
*******************************************************************