3.1 为什么要使用概率?
3.2 随机变量
3.3 概率分布
3.3.1 离散型变量和概率质量函数
- 离散型变量的概率分布可以用概率质量函数(probabilit mass function, PMF)描述。
3.3.2 连续型变量和概率密度函数
- 连续型随机变量的分布可以用概率密度函数(probability denstity function, PDF)表示。概率密度函数
p(x) 并没有直接对特定的状态给出概率,而是给出落在面积为δx 的无限小的区域内的概率为p(x)δx 。
3.4边缘概率
3.5条件概率
3.6条件概率的链式法则
3.7独立性和条件独立性
3.8期望、方差和协方差
- 期望,
Ex∼P[f(x)]=∑xP(x)f(x) Ex∼P[f(x)]=∫p(x)f(x)dx. - 方差(variance)衡量的是当我们对
x 根据它概率分布进行采样时,随机变量x 的函数值会呈现多大的差异:Var((fx))=E[(f(x)−E[f(x)])2] -
协方差(covariance)给出两个变量线性相关性的强度:
Cov(f(x),g(y))=E[(f(x)−E[f(x)])(g(y)−E[g(y)])] - 若协方差为正,两个变量都倾向于同时取得相对较大的值
- 若协方差为负,其中一个变量倾向于取得相对较大的值的同时,另一个变量倾向于取得较小的值,反之亦然。
协方差矩阵(covariance matrix)是一个
n×n 的矩阵。 协方差矩阵的对角元是方差:Cov(xi,xi)=Var(xi)
3.9 常用概率分布
3.9.1 Bernoulli分布
- Bernoulli分布是单个二值随机变量的分布。由单个参数
ϕ 控制,表示随机变量等于1的概率:P(x=1)=ϕ P(x=0)=1−ϕ P(x=x)=ϕx(1−ϕ)1−x Ex[x]=ϕ Varx(x)=ϕ(1−ϕ)
3.9.2 Multinoulli分布
- Multinoulli分布或者范畴分布(categorycal distribution)是指在具有
k 个不同状态的单个离散型随机变量上的分布。
3.9.3 高斯分布
- 高斯分布(Gaussian distribution)也称正态分布(normal distribution):
N(x;μ,σ2)=12πσ2−−−−−√exp(−12σ2(x−μ)2) E[x]=μ ,分布的标准差用σ表示 ,方差σ2 。 - 当我们缺乏关于某个实数上分布的先验知识而不知道采用哪种分布,选择正态分布的原因:
- 很多分布的真实情况比较接近正态分布。
- 在具有相同方差的所有概率分布中,正态分布在实数上具有最大的不确定性。
3.9.4指数分布和Laplace分布
- 泊松分布:一个时间段内时间平均发生的次数(离散变量)
- 指数分布:两件事发生的平均时间间隔。
p(x;λ)=λ1x≥0exp(−λx) 1x≥0 是指示函数(indicator function),使得x 取负值的概率为零。泊松分布和指数分布 - Laplace分布:
Laplace(x;μ,γ)=12γexp(−|x−μ|γ)
其中μ 是位置参数,γ 尺度参数。 - 正态分布用平均值
μ 的差的平方(x−μ)2 。 - Laplace用相对平均值的差的绝对值表示,尾部比正态分布更平坦。(声音辨识、JPEG压缩等)
E(x)=μ Var(x)=2σ2
3.9.5 Dira分布和经验分布
- 所有质量都集中在一点上。Dirac Delta函数:
p(x)=δ(x−μ) - 经验分布(empirical distribution):
p(x)=1m∑i=1mδ(x−x(i)) 1m的m个点中赋给每一个,给定采样
3.9.6 混合模型
- 常见的高斯混合模型(Gaussian Mixture Model),高斯混合模型是概率密度的万能近似器(universal approximator)。
3.10 常用函数的有用性质
- logistic sigmoid函数:
σ(x)=11+exp(−x) - softplus函数(softplus function):
ζ(x)=log(1+exp(x)) β和σ 参数。来源于x+=max(0,x) softplus Relu。 - 两者之间:
σ(x)=exp(x)exp(x)+exp(0)
3.11贝叶斯规则
常用:
###3.12连续型变量的技术细节
假设两个随机变量
不成立
举例子:假设
3.13信息论
本科和研一学过太多了,略过0.0
- KL散度(Kullback-Leibler(KL)divergence)衡量两个单独的概率分布
P(x) Q(x) 的差异:DKL(P||Q)=Ex∼P[logP(x)Q(x)]=Ex∼P[logP(x)−logQ(x)] - KL散度非负。KL散度为0,且
P(x)和Q(x)为离散型变量是相同的分布。
- KL散度非负。KL散度为0,且
结构化概率模型
- 有向(directed)图
- 无向(undirected)图
还没用到过,不太了解。tensorflow用的就是这种格式。
- 方差
D=1N−1∑Ni=1(xi−x¯)2 ,因为N - 1x¯ ,用掉了一个*度。 - softplus是relu的扩展,处处可导
- nerual style ,数据很小优化可以用LBFGS