《Excel数据可视化:一样的数据不一样的图表》——2.3 概率统计中的正态分布和偏态分布...

时间:2024-04-05 07:02:31

本节书摘来自华章计算机《Excel数据可视化:一样的数据不一样的图表》一书中的第2章,第2.3节,作者 恒盛杰资讯,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.3 概率统计中的正态分布和偏态分布

《Excel数据可视化:一样的数据不一样的图表》——2.3 概率统计中的正态分布和偏态分布...

概率可以理解为随机出现的相对数。随机现象是相对于决定性现象而言的。在一定条件下必然发生某一结果的现象称为决定性现象。随机现象则是指在基本条件不变的情况下,每一次试验或观察前,不能肯定会出现哪种结果,呈现出偶然性,如常见的掷骰子试验。事件的概率是衡量该事件发生的可能性的量度。虽然在一次随机试验中某个事件的发生是带有偶然性的,但那些可在相同条件下大量重复的随机试验却往往呈现出明显的数量规律,其中正态分布和偏态分布就是数据有规律出现的两个代表。

《Excel数据可视化:一样的数据不一样的图表》——2.3 概率统计中的正态分布和偏态分布...

《Excel数据可视化:一样的数据不一样的图表》——2.3 概率统计中的正态分布和偏态分布...

左下图是正态分布图,右下图是偏态分布图。在Excel中通过折线图或散点图可以模拟出如下图所示的效果。要理解分布图形时,需要明白峰度与偏度系数,即它们表示的含义。峰度是用来反映频数分布曲线顶端尖峭或扁平程度的指标,而偏度是用来度量分布是否对称。

《Excel数据可视化:一样的数据不一样的图表》——2.3 概率统计中的正态分布和偏态分布...

服从正态分布的随机变量的概率规律为取与μ邻近的值的概率大,而取离μ越远的值的概率越小;σ越小,分布越集中在μ附近;σ越大,分布越分散。

《Excel数据可视化:一样的数据不一样的图表》——2.3 概率统计中的正态分布和偏态分布...

《Excel数据可视化:一样的数据不一样的图表》——2.3 概率统计中的正态分布和偏态分布...

在Excel中若要绘制正态分布图,需要了解NORMDIST函数。该函数返回指定平均值和标准偏差的正态分布函数。此函数在统计方面应用范围广泛(包括假设检验),能建立起一定数据频率分布直方与该数据平均值和标准差所确定的正态分布数据的对照关系。

NORMDIST函数的语法:NORMDIST(x,mean,standard_dev,cumulative),x 为需要计算其分布的数值;mean是分布的均值;standard_dev是分布的标准偏差; cumulative 为一逻辑值,指明函数的形式。如果cumulative为TRUE,函数NORMDIST返回积累分布函数;如果为FALSE,返回概率密度函数。

概率密度函数是一个描述随机变量的输出值,在某个确定的取值点附近的可能性的函数,而积累分布函数就是概率密度函数的积分。

在正态分布中,有两个常在经济学中引用的概念:长尾和肥尾。美国人克里斯·安德森提出的长尾理论认为:只要存储和流通的渠道足够大,需求不旺或销量不佳的产品,共同占据的市场份额,就可以和那些数量不多的热卖品所占据的市场份额,相匹敌甚至更大。

《Excel数据可视化:一样的数据不一样的图表》——2.3 概率统计中的正态分布和偏态分布...

实例 3 计算学生考试成绩的正态分布图

一般考试成绩具有正态分布现象。现假设某班有45个学生,在一次英语考试中学生的成绩分布在54~95分,他们的成绩按着学号依次递增,计算该班学生成绩的累积分布函数图和概率密度函数图。

《Excel数据可视化:一样的数据不一样的图表》——2.3 概率统计中的正态分布和偏态分布...

《Excel数据可视化:一样的数据不一样的图表》——2.3 概率统计中的正态分布和偏态分布...

《Excel数据可视化:一样的数据不一样的图表》——2.3 概率统计中的正态分布和偏态分布...

频数分布有正态分布和偏态分布之分,如果频数分布的高峰向左偏移,长尾向右侧延伸称为正偏态分布,也称右偏态分布;同样的,如果频数分布的高峰向右偏移,长尾向左延伸则称为负偏态分布,也称左偏态分布。偏态分布常用于分析排队问题。

若要理解偏态分布,首先需要掌握的是“偏度”这一指标。偏态又称偏斜系数、偏态系数,是用来帮助判断数据序列的分布规律性的指标。在数据序列呈对称分布(正态分布)的状态下,其均值、中位数和众数重合。且在这三个数的两侧,其他所有的数据完全以对称的方式左右分布。如果数据序列的分布不对称,则均值、中位数和众数必定分处不同的位置。这时,若以均值为参照点,则要么位于均值左侧的数据较多,称之为右偏;要么位于均值右侧的数据较多,称之为左偏;除此无他。考虑到所有数据与均值之间的离差之和应为零这一约束,则当均值左侧数据较多的时候,均值的右侧必定存在数值较大的“离群”数据;同理,当均值右侧数据较多的时候,均值的左侧必定存在数值较小的“离群”数据。

实例 4 不均匀的收入分配

个人收入图常用来研究偏态分布。它在贫困水平、经济增长和不平等相关的社会经济学研究中有广泛的应用。

《Excel数据可视化:一样的数据不一样的图表》——2.3 概率统计中的正态分布和偏态分布...

《Excel数据可视化:一样的数据不一样的图表》——2.3 概率统计中的正态分布和偏态分布...