先把贝叶斯公式放在这
P ( ω i ∣ x ) = P ( x ∣ ω i ) P ( ω i ) P ( x ) P(\omega_i|x)=\frac{P(x|\omega_i)P(\omega_i)}{P(x)} P(ωi∣x)=P(x)P(x∣ωi)P(ωi)
关于贝叶斯定理的讲解,强烈推荐看3Blue1Brown的视频,B站就有。
核心思想就一句话:证据不应直接决定看法,而是更新看法
Symbol
-
类别 ω \omega ω
ω i , i = 1 , 2 , 3 , . . . , c \omega_i, \ i=1,2,3,...,c ωi, i=1,2,3,...,c
-
先验概率 P ( ω i ) P(\omega_i) P(ωi)
先验概率和为1 Σ i = 1 c P ( ω i ) = 1 \Sigma_{i=1}^cP(\omega_i)=1 Σi=1cP(ωi)=1
-
后验概率 P ( ω i ∣ x ) P(\omega_i|x) P(ωi∣x)
-
似然 P ( x ∣ ω i ) P(x|\omega_i) P(x∣ωi)
-
样本 x x x(向量)
实际上是选取某些特征来表示样本
Before Observation
只知先验
P
(
ω
i
)
P(\omega_i)
P(ωi),没有似然
P
(
x
∣
ω
i
)
P(x|\omega_i)
P(x∣ωi)。
那很简单,给定一个新的样本
x
x
x,最优的分类方法就是把它分为先验最大的那一类。
After Observation
有了观测样本,那么就能用一些方法估计每个类 ω i \omega_i ωi取到 x x x的概率(离散情况下。连续情况就估计类条件概率密度函数),似然 P ( x ∣ ω i ) P(x|\omega_i) P(x∣ωi)
类 条 件 概 率 密 度 函 数 p ( x ∣ ω i ) 类条件概率密度函数p(x|\omega_i) 类条件概率密度函数p(x∣ωi)
我们可以将似然理解为,从样本中学到的新的知识。我们应该拿它去更新旧的知识——先验(将二者相乘)。
有先验,有似然,利用全概率公式,可以求证据因子
P ( x ) = Σ i = 1 c P ( x ∣ ω i ) P ( ω i ) P(x)=\Sigma_{i=1}^cP(x|\omega_i)P(\omega_i) P(x)=Σi=1cP(x∣ωi)P(ωi)
利用贝叶斯公式求出后验 P ( ω i ∣ x ) P(\omega_i|x) P(ωi∣x),取后验最大的 ω i \omega_i ωi为样本 x x x的类别
Two Special Case
1.等先验
P ( ω 1 ) = P ( ω 2 ) = ⋯ = P ( ω c ) = 1 c P(\omega_1)=P(\omega_2)=\cdots=P(\omega_c)=\frac{1}{c} P(ω1)=P(ω2)=⋯=P(ωc)=c1
这种情况下,先验对于分类结果就没有影响。分类结果由似然决定。
2.等似然
P ( x ∣ ω 1 ) = P ( x ∣ ω 2 ) = ⋯ = P ( x ∣ ω c ) P(x|\omega_1)=P(x|\omega_2)=\cdots=P(x|\omega_c) P(x∣ω1)=P(x∣ω2)=⋯=P(x∣ωc)
这种情况下,似然对于分类结果就没有影响。分类结果由先验决定。
Is Bayes Decision Rule Optimal?
(这里学的挺糊涂的。。。)
以二分类情况为例
P ( ω i ∣ x ) > P ( ω j ∣ x ) , D e c i d e : ω i ; O t h e r w i s e : ω j P(\omega_i|x)>P(\omega_j|x),\ Decide:\omega_i;\ Otherwise:\omega_j P(ωi∣x)>P(ωj∣x), Decide:ωi; Otherwise:ωj
对于任意观测样本 x x x,对 x x x进行分类,分错的可能性(probability of error)如下式所示:
P ( e r r o r ∣ x ) = { P ( ω 1 ∣ x ) , i f d e c i d e ω 2 P ( ω 2 ∣ x ) , i f d e c i d e ω 1 P(error|x)= \left\{ \begin{aligned} &P(\omega_1|x), if \ decide \ \omega_2\\ &P(\omega_2|x), if \ decide \ \omega_1 \end{aligned}\right. P(error∣x)={P(ω1∣x),if decide ω2P(ω2∣x),if decide ω1
我的理解如下:首先假设观测到的样本和实际情况是同分布的,对于某个观测样本 x = α x = \alpha x=α,假如 P ( ω 1 ∣ α ) = 0.1 P(\omega_1|\alpha) = 0.1 P(ω1∣α)=0.1, P ( ω 2 ∣ α ) = 0.9 P(\omega_2|\alpha)=0.9 P(ω2∣α)=0.9,那么所有取值为 α \alpha α的样本都会被分到 ω 2 \omega_2 ω2类。假设实际情况有100个样本取到值 α \alpha α,那么可能有10个属于 ω 1 \omega_1 ω1类,90个属于 ω 2 \omega_2 ω2类,错分的可能也就是0.1
那么在贝叶斯决策论下,我们就有:
P
(
e
r
r
o
r
∣
x
)
=
m
i
n
[
P
(
ω
1
∣
x
)
,
P
(
ω
2
∣
x
)
]
P(error|x)=min[P(\omega_1|x),P(\omega_2|x)]
P(error∣x)=min[P(ω1∣x),P(ω2∣x)]
上面这个是老师PPT里的东西,没想明白什么意思。
我的理解如下:首先这是以二分类为例,根据 P ( e r r o r ∣ x ) P(error|x) P(error∣x)的定义,最小化 P ( e r r o r ∣ x ) P(error|x) P(error∣x)就是最小化 P ( ω 1 ∣ x ) 、 P ( ω 2 ∣ x ) P(\omega_1|x)、P(\omega_2|x) P(ω1∣x)、P(ω2∣x)两者的最小值。较小值尽可能小 ⟶ \longrightarrow ⟶较大值尽可能大 ⟶ \longrightarrow ⟶两类分的尽可能开(减少模糊区域)。
没想明白这和贝叶斯分类器是最优分类器之间怎么联系起来。
The General Case
-
三种拓展
-
多分类
-
允许其他action(拒绝分类)
-
引入loss function代替错分率(error probability)
-
-
Loss Function λ ( α i ∣ ω j ) \lambda(\alpha_i|\omega_j) λ(αi∣ωj)
当真实的类为 ω j \omega_j ωj时,执行 α i \alpha_i αi行动所产生的loss
- Conditional risk (Expected loss)
当观测到的样本为 x x x,执行操作 α i \alpha_i αi的条件风险(期望损失)为
R ( α i ∣ x ) = Σ j = 1 c λ ( α i ∣ ω j ) P ( ω j ∣ x ) R(\alpha_i|x)=\Sigma_{j=1}^c\lambda(\alpha_i|\omega_j)P(\omega_j|x) R(αi∣x)=Σj=1cλ(αi∣ωj)P(ωj∣x)
Optimality of Bayesian Decision
-
Decision Rule Function → α ( x ) \rightarrow\alpha(x) →α(x)
-
Total Risk → R = ∫ R ( α ( x ) ∣ x ) P ( x ) d x \rightarrow R=\int R(\alpha(x)|x)P(x)dx →R=∫R(α(x)∣x)P(x)dx
-
Optimal Decision
-
指定的决策规则要实现总风险最小化
-
对于给定的特征 x x x ,如果决策规则选择的动作可以使条件风险 R ( α ( x ) ∣ x ) R(\alpha(x)|x) R(α(x)∣x) 最小化,那么总风险 R R R 将最小化
-
-
Bayesion Decision Rule
对全部 i = 1 , 2 , . . . , a , i=1,2,...,a, i=1,2,...,a, 计算条件风险 R ( α i ∣ x ) R(\alpha_i|x) R(αi∣x) ,挑选action α j \alpha_j αj 实现最小化条件风险 R ( α j ∣ x ) R(\alpha_j|x) R(αj∣x)
Two-Class Classification
-
Action
-
α 1 \alpha_1 α1: decide ω 1 \omega_1 ω1
-
α 2 \alpha_2 α2: decide ω 2 \omega_2 ω2
-
-
Loss
- λ i j = λ ( α i ∣ ω j ) \lambda_{ij}=\lambda(\alpha_i|\omega_j) λij=λ(αi∣ωj)
-
Conditional Risk
-
R ( α 1 ∣ x ) = λ 11 P ( ω 1 ∣ x ) + λ 12 P ( ω 2 ∣ x ) R(\alpha_1|x)=\lambda_{11}P(\omega_1|x)+\lambda_{12}P(\omega_2|x) R(α1∣x)=λ11P(ω1∣x)+λ12P(ω2∣x)
-
R ( α 2 ∣ x ) = λ 21 P ( ω 1 ∣ x ) + λ 22 P ( ω 2 ∣ x ) R(\alpha_2|x)=\lambda_{21}P(\omega_1|x)+\lambda_{22}P(\omega_2|x) R(α2∣x)=λ21P(ω1∣x)+λ22P(ω2∣x)
-
-
minimum risk decision rule
- if R ( α 1 ∣ x ) ≤ R ( α 2 ∣ x ) R(\alpha_1|x) \le R(\alpha_2|x) R(α1∣x)≤R(α2∣x) decide ω 1 \omega_1 ω1 else decide ω 2 \omega_2 ω2
-
Equivalent minimum risk decision rules
(以将 x x x 分为 ω 1 \omega_1 ω1 类为例)
R ( α 1 ∣ x ) ≤ R ( α 2 ∣ x ) R(\alpha_1|x) \le R(\alpha_2|x) R(α1∣x)≤R(α2∣x)
( λ 21 − λ 11 ) P ( ω 1 ∣ x ) ≥ ( λ 12 − λ 22 ) P ( ω 2 ∣ x ) (\lambda_{21}-\lambda_{11})P(\omega_1|x) \ge (\lambda_{12}-\lambda_{22})P(\omega_2|x) (λ21−λ11)P(ω1∣x)≥(λ12−λ22)P(ω2∣x)
( λ 21 − λ 11 ) P ( x ∣ ω 1 ) P ( ω 1 ) ≥ ( λ 12 − λ 22 ) P ( x ∣ ω 2 ) P ( ω 2 ) (\lambda_{21}-\lambda_{11})P(x|\omega_1)P(\omega_1) \ge (\lambda_{12}-\lambda_{22})P(x|\omega_2)P(\omega_2) (λ21−λ11)P(x∣ω1)P(ω1)≥(λ12−λ22)P(x∣ω2)P(ω2)
-
通常来讲分类错误的损失,大于分类正确的损失
λ 21 − λ 11 > 0 \lambda_{21}-\lambda_{11} > 0 λ21−λ11>0
λ 12 − λ 22 > 0 \lambda_{12}-\lambda_{22}>0 λ12−λ22>0 -
于是可以推出:(不等式左边项叫做似然比(Likelihood Ratio))
P ( x ∣ ω 1 ) P ( x ∣ ω 2 ) ≥ ( λ 12 − λ 22 ) P ( ω 2 ) ( λ 21 − λ 11 ) P ( ω 1 ) \frac{P(x|\omega_1)}{P(x|\omega_2)} \ge \frac{(\lambda_{12}-\lambda_{22})P(\omega_2)}{(\lambda_{21}-\lambda_{11})P(\omega_1)} P(x∣ω2)P(x∣ω1)≥(λ21−λ11)P(ω1)(λ12−λ22)P(ω2) -
上面式子为基于似然比的Bayesian Decision Rule,满足上述不等式 → \rightarrow → ω 1 \omega_1 ω1 类,不满足上述不等式 → \rightarrow → ω 2 \omega_2 ω2 类。
“0-1” loss
λ ( α i ∣ ω j ) = { 0 i = j ( c o r r e c t d e c i s i o n ) 1 i ≠ j ( i n c o r r e c t d e c i s i o n ) \lambda(\alpha_i|\omega_j)= \left\{ \begin{aligned} &0 &i = j (correct decision)\\ &1 &i \ne j (incorrect decision) \end{aligned} \right. λ(αi∣ωj)={01i=j(correctdecision)i=j(incorrectdecision)
“0-1”loss可以视作没有损失
Minimum-Error-Rate Classification
-
Minimum-error-rate classification就是使用"0-1"loss的minimum risk classification
-
退化为基于后验的分类器
Minimax Rule
(未完待续)