目录
写在前面
样本空间
样本空间由某一次具体试验中所有可能出现的结果构成。
事件
概率
起源与发展
概率
-
概率与频率 & 大数定理与概率
伯努利提出了 “大数定律”。伯努利认为,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。
换句话说,伯努利用频率解释了概率。“大数定律”去处了概率最后一分“玄学”色彩,让概率变成了像物理化学那样的实验学科。 -
概率论与“频数派” & 概率论与“贝叶斯派”
“频率派”认为概率是重复尝试多次,某种结果出现的次数在尝试的总次数的比例。
“贝叶斯派”认为概率是主观信念的强弱。
基本计数原理
- 基本计数原理
- 抽样(有/无序、重复/无重复)
排列
组合
本质
随机变量 = 函数/映射
概率函数 = 用函数的形式来表达概率
随机变量函数 = 复合函数
所以,概率密度函数就是随机变量和概率函数的复合函数。
(比如表示随机变量概率的概率函数以及表示随机变量分布的分布函数,)
1. 随机变量(random variable)
1.1 随机变量
随机变量 X = x
将样本空间中的每一个可能的试验结果关联到一个特定的数,这种试验结果与数的对应关系就形成了 随机变量。
随机变量的本质是一个函数,是从样本空间的子集到实数的映射,将事件转换成一个数值。可以说,随机变量是“数值化”的实验结果。
1.2 随机变量三要素
一组随机变量,最关注的三个要素
- 随机变量的取值
试验结果对应的数被称为随机变量的取值。 - 试验中每个对应取值的概率
注意区分:概率函数、概率分布函数 - 随机变量的统计特征和度量方法
期望、方差
2.分类
2.1 离散型随机变量
离散型随机变量:随机变量的取值只能是有限多个或者是可数的无限多个值。
2.2 随机变量三要素(离散)
1. 随机变量的取值
可以是试验的结果取值,比如 “抛掷骰子的结果点数为 2”;( y=x )
也可以是另一种映射值,比如 “连续抛掷硬币 10 次,其中硬币正面出现的次数”。( y=f(x) )
2. 试验中每个对应取值的概率
-
概率表示:概率函数
随机变量的概率表示用概率函数:
PX(x) = P(X=x)
(注:连续型随机变量用的是概率密度函数) -
概率分布:概率质量函数(PMF)
概率分布,即离散型 ‘’随机变量的值分布和值的概率分布列表‘’。(注意,是全部可能的取值)
概率质量函数,PMF ( probability mass function ):
将随机变量的每个值映射到其概率上。
(随机变量的分布列和概率质量函数其实就是一回事)
3. 随机变量的统计特征和度量方法
期望
方差
2.2 连续型随机变量
随机变量三要素(连续)
1. 随机变量的取值
随机变取值于连续区域,比如汽车的行驶速度、设备连续正常运行的时间等。
2. 试验中每个对应取值的概率
对于连续型随机变量,我们讨论的是某个区间内的概率,即P(a<X<b),而不是具体某一数值的概率。
例如:
图中的每一个柱状表示的是每一个小“区间”的概率(使用直方图(Histogram进行可视化),而不像离散型随机变量,每个点对应一个概率值。
PS:图中的曲线是核函数估计kdeplot拟合出来的,具体来说,核密度估计就是采用平滑的峰值函数(“核”)来拟合观察到的数据点,从而对真实的概率分布曲线进行模拟。
-
概率表示:概率密度函数(PDF)
连续型随机变量的概率函数叫做 概率密度函数(PDF,probability density function)
借用“无穷小”的概念,来定积分表示一个连续随机变量的概率分布:
- 概率分布:
f(x)即连续型随机变量 X 的密度函数,两边求导即可得:
3. 随机变量的统计特征和度量方法
期望
方差
3.总结
本质
随机变量 = 函数/映射
随机变量函数 = 复合函数
随机变量函数,类似复合函数。二者本质上是一回事情,都是两个一元映射构造的复合映射。
三要素
一组随机变量,最关注的三个要素:
-
随机变量的取值
试验结果对应的数被称为随机变量的取值。可以是试验的结果取值,比如 “抛掷骰子的结果点数为 2”;( y=x )
也可以是另一种映射值,比如 “连续抛掷硬币 10 次,其中硬币正面出现的次数”。( y=f(x) ) -
试验中每个对应取值的概率
随机变量在不同取值(离散型) / 区间(连续型) 下的概率:
离散型:概率质量函数(PMF)的 取值
连续型:概率密度函数(PDF)的曲线下面积 -
随机变量的统计特征和度量方法
期望
方差
问题
1.概率函数、概率分布、和概率密度函数的关系
从数学上看,分布函数F(x)=P(X<x),表示随机变量X的值小于x的概率。这个意义很容易理解。概率密度f(x)是F(x)在x处的关于x的一阶导数,即变化率。如果在某一x附近取非常小的一个邻域Δx,那么,随机变量X落在(x, x+Δx)内的概率约为f(x)Δx,即P(x<X<x+Δx)≈f(x)Δx。换句话说,概率密度f(x)是X落在x处“单位宽度”内的概率。“密度”一词可以由此理解。