每个数据科学家都应该知道的6个基本分布

时间:2024-03-23 15:54:10

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”


作者RADHIKA NIJHAWAN

编译:ronghuaiyang

导读

无论是统计分析还是机器学习,这6个分布都是非常基础的,必须要了解的东西。


介绍

欢迎来到数据科学中的概率世界!让我从一个直观的例子开始。

假设你是一所大学的老师。检查了一个星期的作业后,你给所有的学生打分。你把这些打分的论文交给大学里的一个数据录入员,让他制作一个包含所有学生成绩的电子表格。但是这个家伙只存储分数,而不存储相应的学生。

每个数据科学家都应该知道的6个基本分布

他又犯了一个错误,他在匆忙中错过了几个条目,我们不知道谁的分数少了。我们需要找个方法来解决这个问题。

一种方法是将分数可视化,看看能否在数据中找到趋势。

每个数据科学家都应该知道的6个基本分布

你所绘制的图表称为数据的频率分布。你看到有一个平滑的曲线结构定义了我们的数据,但是你注意到异常了吗?我们在一个特定的分数范围有一个异常的低的频率。因此,最好的猜测是用缺失的值来消除分布中的凹痕。

这就是使用数据分析来解决实际问题的方法。对于任何数据科学家、学生或实践者来说,分布是一个必须了解的概念。它为分析和推理统计提供了基础。

虽然概率的概念给了我们数学上的计算,但分布实际上帮助我们把下面发生的事情形象化。

在本文中,我介绍了一些重要的概率分布

注意:本文假设你有概率论的基本知识。

常用的数据类型

在我们开始解释分布之前,让我们看看我们能遇到什么样的数据。数据可以是离散的,也可以是连续的。

离散数据,顾名思义,只能取指定的值。例如,当你掷骰子时,可能的结果是1、2、3、4、5或6,而不是1.5或2.45。

连续数据,可以取给定范围内的任何值。范围可以是有限的,也可以是无限的。例如,一个女孩的体重或身高,道路的长度。女孩的体重可以是54公斤,或54.5公斤,或54.5436公斤。

现在让我们从分布的类型开始。

分布的类型

伯努利分布

我们从最简单的伯努利分布开始。它实际上比听起来更容易理解!

你们这些板球迷!在任何一场板球比赛开始时,你如何决定谁将击球或投球?一个硬币!这完全取决于你掷硬币是赢是输,对吧?假设抛硬币结果是正面,你赢了。别的,你输了。没有其他的中间结果。

一个伯努利分布只有两种可能的结果,即1(成功)和0(失败)。随机变量X具有伯努利分布它可以以概率p取值1表示成功,以概率q或1-p取值0表示失败。

在这里,出现一个正面表示成功,出现一个反面表示失败。

得到正面的概率= 0.5 =得到反面的概率因为只有两种可能的结果。

概率密度函数由:px(1-p)1-x给出,其中x∈(0,1)。

它也可以写成

每个数据科学家都应该知道的6个基本分布

成功和失败的概率不一定是相同的,就像我和殡仪馆老板打架一样。他几乎肯定会赢,这里成功的概率是0.15而失败的概率是0.85。

这里,成功的概率(p)不等于失败的概率。下面的图表显示了我们的打架的伯努利分布。

每个数据科学家都应该知道的6个基本分布

这里,成功的概率= 0.15,失败的概率= 0.85。期望值就是它听起来的那样。如果我打你,我可能希望你也打我。任何分布的期望值都是分布的均值。随机变量X在伯努利分布中的期望值如下:

E(X) = 1×p + 0×(1-p) = p

随机变量的伯努利分布方差为:

V(X) = E(X²) – [E(X)]² = p – p² = p(1-p)

伯努利分布有很多例子,比如明天是否会下雨,下雨表示成功,不下雨表示失败,赢(成功)或输(失败)。

均匀分布

当你掷一个公平的骰子,结果是1到6。得到这些结果的概率是相等的这是均匀分布的基础。与伯努利分布不同,均匀分布的所有n种可能结果都是等可能的。

如果密度函数为这样的,那这个随机变量X就是均匀分布:

每个数据科学家都应该知道的6个基本分布

均匀分布曲线的图像是这样的

每个数据科学家都应该知道的6个基本分布

大家可以看到均匀分布曲线的形状是矩形的,所以均匀分布叫做矩形分布。

对于均匀分布,a和b是参数。

花店每天销售的花束数量是均匀分布的,最多40支,最少10支。

我们来计算一下日销售量下降到15到30之间的概率。

日销量在下降到15 - 30之间的概率为(30-15)×(1/(40-10))= 0.5

同样,日销售量大于20的概率为0.667

X服从均匀分布的均值和方差为:

均值 -> E(X) = (a+b)/2

方差 -> V(X) =  (b-a)²/12

标准均匀分布的参数a = 0, b = 1,因此标准均匀分布的PDF为:

每个数据科学家都应该知道的6个基本分布

二项分布

让我们回到板球。假设你今天掷硬币赢了,这表示一个成功的事件。你又掷了一次,但这次你输了。如果你今天掷硬币赢了,这并不意味着你明天一定会赢。让我们指定一个随机变量,比如X,来表示掷硬币赢了多少次。X可能的值是多少?它可以是任何数字,取决于你抛硬币的次数。

掷硬币只有两种可能的结果。正面表示成功,反面表示失败。因此,得到正面的概率= 0.5,失败的概率可以很容易地计算为:q = 1- p = 0.5。

只有两种结果可能的分布,如成功或失败,得失,赢或输,在所有试验中,成功和失败概率相同的分布称为二项分布。

结果不一定是同样可能的。还记得我和殡仪馆老板打架的例子吗?所以,如果实验成功的概率是0.2那么失败的概率可以很容易地计算为q = 1 - 0.2 = 0.8。

每次试验都是独立的,因为前一次投掷的结果并不决定或影响当前投掷的结果。只有两种可能结果重复n次的实验称为二项实验。二项分布的参数是n和p其中n是总试验次数p是每次试验成功的概率。

在上述解释的基础上,二项分布的性质是

  1. 每个试验都是独立的。

  2. 试验只有两种可能的结果—成功或失败。

  3. 总共进行了n次相同的试验。

  4. 所有试验的成功和失败的概率是相同的。(试验是相同的。)

二项分布的数学表示为:

每个数据科学家都应该知道的6个基本分布

成功概率不等于失败概率的二项分布曲线是这样的

每个数据科学家都应该知道的6个基本分布

成功概率=失败概率时,二项分布曲线是这样的

每个数据科学家都应该知道的6个基本分布

二项分布的均值和方差由下面给出:

均值 -> µ = n*p

方差 -> Var(X) = npq

正态分布

正态分布表示宇宙中大多数情况的行为(这就是为什么它被称为“正态”分布)。我猜的!)大(小)随机变量的和往往是正态分布的,这有助于它的广泛应用。任何具有以下特征的分布都称为正态分布:

  1. 分布的均值、中值和众数一致。

  2. 分布是钟形的曲线,对称线x =μ。

  3. 曲线下的总面积是1。

  4. 恰好一半的值在中心的左边,另一半在右边。

正态分布与二项分布有很大不同。然而,如果试验次数接近无穷,那么形状将非常相似。

服从正态分布的随机变量X的PDF为:

每个数据科学家都应该知道的6个基本分布

正太分布的均值和方差为:

均值 -> E(X) = µ

方差 -> Var(X) = σ2

这里, µ (均值) and σ (标准差) 都是参数。

随机变量X ~ N (µ, σ) 的图如下:

每个数据科学家都应该知道的6个基本分布

标准正态分布定义为均值为0,标准差为1的分布。如属上述情况,PDF为:

每个数据科学家都应该知道的6个基本分布

每个数据科学家都应该知道的6个基本分布

泊松分布

假设你在一个呼叫中心工作,你一天大约会接到多少个电话?它可以是任何数字。现在,一天内呼叫中心的全部呼叫数是由泊松分布建模的。更多的例子包括:

  1. 医院一天内接到的急救电话的数量。

  2. 一个地区一天内报告的盗窃案数量。

  3. 一个小时内到达沙龙的顾客数量。

  4. 某城市的自杀人数。

  5. 书中每页印刷错误的数目。

现在,你可以根据相同的过程想出许多例子。泊松分布适用于事件在时间和空间上随机发生的情况,在这种情况下,我们只关心事件发生的次数。

当下列假设成立时,称为泊松分布:

  1. 任何成功的事件都不应影响另一个成功事件的结果。

  2. 短时间内成功的概率必须等于长时间内成功的概率。

  3. 当区间变小时,成功的概率趋近于零。

现在,如果任何分布验证了上述假设,那么它就是泊松分布。泊松分布中使用的一些符号是:

  • λ的是一个事件发生的比率,

  • t是时间间隔的长度,

  • X是这段时间内的事件数。

这里,X称为泊松随机变量,X的概率分布称为泊松分布。

让µ表示事件发生的平均数量,间隔长度为t。然后,µ=λ* t。

服从泊松分布的PMF (X):

每个数据科学家都应该知道的6个基本分布

均值 µ是这个分布的参数, µ也定义为这λ次 的间隔长度。泊松分布的图:

每个数据科学家都应该知道的6个基本分布

下面的图表示了均值增加,图形发生了偏移。

每个数据科学家都应该知道的6个基本分布

当均值增加时,图形向右边偏移。

服从泊松分布的随机变量X的均值和方差:

均值 -> E(X) = µ方差 -> Var(X) = µ

指数分布

让我们再考虑一次呼叫中心的例子。两次通话之间的时间间隔是多少?这里,指数分布帮了我们一把。指数分布对两次通话之间的间隔进行建模。

其他的例子有:

  1. 地铁到达前的时间,

  2. 到达加油站的时间间隔

  3. 空调的寿命

指数分布广泛应用于生存分析。从机器的预期寿命到人的预期寿命,指数分布成功地给出了结果。

一个随机变量X有一个指数分布的PDF:

每个数据科学家都应该知道的6个基本分布

参数λ>0。也称为速率。

在生存分析中,λ称为在任何时间t设备的故障率,意思是到时间t之前都是好的。

随机变量X的均值和方差服从指数分布:

均值 -> E(X) = 1/λ

方差 -> Var(X) = (1/λ)²

而且,速率越大,曲线下降得越快,速率越低,曲线就越平坦。下面的图表可以更好地解释这一点。

每个数据科学家都应该知道的6个基本分布

为了方便计算,下面给出了一些公式。

P{X≤x} = 1 – e-λx, 对应密度曲线x右边的曲线下面积。

P{X>x} = e-λx,对应密度曲线x左边的曲线下面积。

P{x1<X≤ x2} = e-λx1 – e-λx2,对应密度曲线x1和x2之间的曲线下面积。

分布之间的关系

伯努利分布和二项分布之间的关系

  1. 伯努利分布式二项分布的一种特殊形式,是二项分布的一次实验的结果。

  2. 伯努利分布和二项分布只有两种结果,一种使成功,一种使失败。.

  3. 伯努利分布和二项分布的实验都是独立的。

泊松分布和二项分布的关系

泊松分布是下面条件下的二项分布的一种极限情况:

  1. 实验的次数趋向于无穷大。

  2. 每次实验的成功的概率都是相同的,而且非常的小,或者说概率趋向于0。

  3. np = λ,是有限的.

正太分布和二项式分布以及正太分布和泊松分布之间的关系:

正态分布是二项分布在下列条件下的另一种极限形式:

  1. 每次实验室独立的而且次数非常大,趋向于无穷。

  2. p和q都不是特别小。

正态分布也是一个参数λ→∞时极限情况下的泊松分布。

指数分布和泊松分布之间的关系:

如果次数是服从参数为λ的指数分布率的随机事件,那么在时间长度t内,事件发生的总数遵循参数为λt的泊松分布。

结束语

概率分布在保险、物理、工程、计算机科学甚至社会科学等许多领域都很普遍,其中心理学和医学的学生广泛使用概率分布。它应用简单,用途广泛。本文重点介绍了在日常生活中观察到的六个重要分布,并解释了它们的应用。

每个数据科学家都应该知道的6个基本分布END

英文原文:https://www.analyticsvidhya.com/blog/2017/09/6-probability-distributions-data-science/


每个数据科学家都应该知道的6个基本分布

请长按或扫描二维码关注本公众号

喜欢的话,请给我个好看吧每个数据科学家都应该知道的6个基本分布