概率论
概率论与人工智能
• 概率论是研究不确定的学科。
• 概率论是现有许多人工智能算法的基础。现阶段的很多人工智能算法都是数据驱动的,且目的大多为了做预测或是作出更好的决策。如:
o 机器翻译中,如何检测你输入的语言种类。一种简单的方法就是把你输入的词或句子进行分解,计算各语言模型的概率,然后概率最高的是最后确定的语言模型。
o 用神经网络进行图像分类,网络的输出是衡量分类结果可信程度的概率值,即分类的置信度,我们选择置信度最高的作为图像分类结果。
o 混合高斯模型、隐马尔科夫模型等传统语音处理模型都是以概率论为基础的。
随机试验
• 满足以下三个特点的试验称为随机试验:
o 可以在相同的条件下重复进行。
o 每次试验的可能结果不止一个,并且能事先明确试验的所有可能结果。
o 进行一次试验之前不能确定哪一个结果会出现。
• 举例:
样本点、样本空间、随机事件
• 样本点:一个随机试验所有可能结果的集合是样本空间,而随机试验中的每个可能结果称为样本点。
• 随机事件:随机试验的某些样本点组成的集合, 常用大写字母表示。
• 举例:
随机变量
•
•
• 按照随机变量的可能取值,可分为:
o 离散随机变量:随机变量的全部可能取到的值是有限个或可列无限多个。如:某年某地的出生人数。
o
分布律
• 对于离散随机变量,我们通常分布律来描述其取值规律。
•
• 分布律也可以用表格的形式来表示:
特殊离散分布 -伯努利分布
•
• 伯努利分布的分布律也可以写成:
• 伯努利分布主要用于二分类问题,可以用伯努利朴素贝叶斯进行文本分类或垃圾邮件分类。伯努利模型中每个特征的取值为1和0,即某个单词在文档中是否出现过,或是否为垃圾邮件。
•
特殊离散分布 - 二项分布
• 二项分布是重复n次伯努利试验满足的分布。
•
• 二项分布在NLP中使用得非常广泛,例如估计文本中含有“的”字的句子所占百分比,或者确定一个动词在语言中常被用于及物动词还是非及物动词。
•
• n重伯努利试验:
• 每次实验都在相同的条件下重复进行。
•
• 每次试验的结果相互独立。
特殊离散分布 - 泊松分布
•
•
• 泊松分布用于描述单位时间内随机事件发生的次数。如一段时间内某一客服电话受到的服务请求的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数等。
• 图像处理中,图像会因为观点显示仪器测量造成的不确定性而出现服从泊松分布的泊松噪声,我们经常会给图像加泊松噪声用于图像的数据增强。
分布函数
• 实际生活中,我们通常不太关心取到某一点的概率,而是取到某一区间的概率。所以我们需要研究分布函数。
•
•
连续型随机变量与概率密度函数
•
特殊分布 - 正态分布
•
• 在自然现象和社会现象中,大量随机变量都服从或近似服从正态分布。高斯分布是机器学习中最常用的分布,如:
• 图像处理中,我们可以给图像添加高斯噪声用于图像增强等任务。也可以用高斯滤波器去除噪声并平滑图像。还可以用混合高斯模型进行图像的前景目标检测。
• 在传统语音识别模型GMM-HMM(高斯混合模型-隐马尔科夫)中,高斯混合模型就是由多个高斯分布混合起来的模型。
图像的泊松噪声与高斯噪声
• 泊松噪声又称散粒噪声,这种颗粒性造成了图像对比度的变小以及对图像细节信息的遮盖。
随机向量
• 在实际应用中,经常需要对所考虑的问题用多个变量来描述。我们把多个随机变量放在一起组成向量,称为多维随机变量或者随机向量。
•
为n维(或n元)随机变量或随机向量
• 如我们通过人脸判断人的年龄,可能需要结合多个特征(随机变量),如脸形、脸部纹理、面部斑点、皮肤松弛度、发际线等,将这些特征结合映射为一个实数,即年龄。
联合分布函数
• 对应随机变量的分布函数,随机向量有对应的联合分布函数。
•
称为n维随机变量的联合分布函数。
•
联合概率密度
• 对应一维随机变量的概率密度函数,随机向量有对应的联合概率密度。
•
条件概率、贝叶斯公式
• 已知原因求解事件发生的概率通常被叫做条件概率也叫后验概率:
•
•
• 贝叶斯公式应用:中文分词、统计机器翻译、深度贝叶斯网络等
贝叶斯定理应用 – 中文分词
• 如何对这个句子进行分词(词串)才最靠谱?
• 杭州|西湖、杭|州西湖、杭州西|湖
• 令 Y 为字串(句子),X 为词串(一种特定的分词假设)。我们就是需要寻找使得 P(X|Y) 最大的 X,使用贝叶斯公式有得:
• 若已知P(Y):对于每种分词假设都不变、P(X):这种分词方式(词串)的可能性和P(Y|X):这个词串生成我们的句子的可能性,我们就可以成功分词。
期望、方差
• 数学期望(或均值,亦简称期望):是试验中每次可能结果的概率乘以其结果的总和,是概率分布最基本的数学特征之一。它反映随机变量平均取值的大小。
•
•
• 方差:是衡量随机变量或一组数据离散程度的度量,即随机变量和其数学期望之间的偏离程度。
协方差、相关系数、协方差矩阵
• 协方差:在某种意义上给出了两个随机变量线性相关性的强度。
• 相关系数又叫线性相关系数,用来度量两个变量间的线性关系。
•