机器学习本质上,就是做出预测。而概率论提供了一种量化和表达不确定性水平的方法,可以帮助我们量化对某个结果的确定性程度。
在一个简单的图像分类任务中;
- 如果我们非常确定图像中的对象是一只猫,那么我们可以说标签为 “猫” 的概率是 1,即 P ( y = “猫” ) = 1 P(y =“猫”) = 1 P(y=“猫”)=1;
- 如果我们无法区分图像是猫还是狗,那么我们可以说两者出现的概率相等,即 P ( y = “猫” ) = P ( y = “狗” ) = 0.5 P(y =“猫”) = P(y =“狗”) = 0.5 P(y=“猫”)=P(y=“狗”)=0.5;
- 如果我们对图像是否为猫不太确定,我们可以将概率设置在一个介于 0.5 和 1 之间的值,表示我们对其为猫的确定性程度不是完全的,但比完全不确定要高。
这种概率的量化和比较使得我们可以更加客观和量化地评估和处理不确定性。
概率论公理
概率论名词:
- 样本空间:所有可能结果的集合;
- 事件:给定样本空间的一个子集;
- 概率:将集合映射到真实值的函数,反映了事件发生的可能性;
概率论公理:
- 对于任意事件,其概率从不会是负数;
- 整个样本空间的概率为 1;
- 对于互斥事件(A、B、C互斥),有 P ( A ∪ B ∪ C ) = P ( A ) + P ( B ) + P ( C ) P(A∪B∪C)=P(A) + P(B) + P(C) P(A∪B∪C)=P(A)+P(B)+P(C);
随机变量
随机变量是将样本空间中的每个结果映射到一个实数集上的函数;
e . g . e.g. e.g. 以掷一个六面的骰子为例,其样本空间 S S S 包含所有可能的结果,即 S = { 1 , 2 , 3 , 4 , 5 , 6 } S = \{1, 2, 3, 4, 5, 6\} S={1,2,3,4,5,6}。我们定义一个随机变量 X X X,它将每个结果映射到一个实数。这里假设我们设定 X = x 2 + 1 X = x^2+1 X=x2+1,其中 x x x 为骰子的结果。
那么我们可以计算出每个结果对应的 X X X 值:
- 当 x = 1 x=1 x=1 时, X = x 2 + 1 = 2 X = x^2+1=2 X=x2+1=2;
- 当 x = 2 x=2 x=2 时, X = x 2 + 1 = 5 X = x^2+1=5 X=x2+1=5;
- 当 x = 3 x=3 x=3 时, X = x 2 + 1 = 10 X = x^2+1=10 X=x2+1=10;
- 当 x = 4 x=4 x=4 时, X = x 2 + 1 = 17 X = x^2+1=17 X=x2+1=17;
- 当 x = 5 x=5 x=5 时, X = x 2 + 1 = 26 X = x^2+1=26 X=x2+1=26;
- 当 x = 6 x=6 x=6 时, X = x 2 + 1 = 37 X = x^2+1=37 X=x2+1=37;
因此,离散随机变量 X X X 的可能取值为 {2, 5, 10, 17, 26, 37};在公平骰子的情况下,每个结果出现的概率是相等的,出现的概率都为 1 6 \frac 1 6 61。