统计决策方法
1、一个简单的例子引出一些基本概念
假如我手里拿着一枚硬币,让你猜是多少钱的硬币,这其实就可以看作是一个分类决策的问题:你需要从各种可能的硬币中做出一个决策。如果我告诉你这是一枚一角或五角,这就是一个两类的分类问题。
在没有关于这枚硬币任何信息的情况下,有人可能猜测这是一枚一角的硬币,因为他在最近一段时间以来接触过的一角的硬币比五角的硬币多,因此他觉得更可能是一角。这就是一种决策。这种决策过程是有理论依据的:他实际是通过对所接触过的硬币的概率作出粗略分析,认为出现一角硬币的概率比五角的硬币概率大,然后选择了概率较大的决策。
如果把硬币记作 x,把一角或五角这两类分别记作 w1 和 w2,用 P(w1) 和 P(w2) 分别表示这两类的概率,这一决策规则则可以表示为:
如果 P(w1) > P(w2),则 x ∈ w1;反之,则 x ∈ w2
采用上式的决策犯错误的概率最小。
在所有可能出现的样本上类别决策错误的概率被称为错误率。上式就是最小错误率准则。由于对每一枚硬币都按照错误概率最小的原则进行决策,那么这种决策在所有可能出现的独立样本上的错误率就最小。
- 先验概率:没有对样本进行任何观测的情况下的概率;即:P(wi)
如果允许你用天平来称重,让你根据重量来做决策:
把硬币的重量仍记为 x,与上面所述的决策过程类似,现在应该考察在已知这枚硬币重量为 x 情况下硬币属于各类的概率,对两类硬币分别记作 P(w1|x) 和 P(w2|x),这种概率称作后验概率,这时的决策应该为:
如果 P(w1|x) > P(w2|x),则 x ∈ w1;反之,则 x ∈ w2
- 后验概率,即:P(wi|x)
问题是,只测了 x,如何知道 P(wi|x),i = 1,2,… 呢?
根据贝叶斯公式:
P
(
w
i
∣
x
)
=
P
(
x
,
w
i
)
P
(
x
)
=
P
(
x
∣
w
i
)
P
(
w
i
)
P
(
x
)
,
i
=
1
,
2
(
1
)
P(w_{i} | x) = \frac {P(x,w_{i})} {P(x)} = \frac {P(x|w_{i})P(w_{i})} {P(x)},i = 1,2 \qquad\qquad\qquad (1)
P(wi∣x)=P(x)P(x,wi)=P(x)P(x∣wi)P(wi),i=1,2(1)
其中,P(wi) 是先验概率;P(x,wi) 是 x 与 wi 的联合分布概率密度;P(x) 是两类所有硬币重量的概率密度,称作总体密度;P(x|wi) 是第 i 类硬币重量的概率密度,称为类条件密度。这样,后验概率就转换成了先验概率与类条件密度的乘积,再用总体密度进行归一化。决策准则如下:
如果 P(x|w1) P(w1) > P(x|w2) P(w2),则 x ∈ w1;反之,x ∈ w2
- 类条件密度,即:P(x|wi)
其中,先验概率可以根据市场上流通的一角与五角货币的比例估计,而类条件密度则需要用一定的属于本类的训练样本来进行估计。
这就是贝叶斯决策:在类条件概率密度和先验概率已知(或可以估计)的情况下,通过贝叶斯公式比较样本属于两类的后验概率,将类别决策为后验概率大的一类,这样做的目的是为了使总体错误率最小。
下面正式介绍贝叶斯决策:
假定样本
x
∈
R
d
(
2
)
x ∈ R^d \qquad\qquad\qquad (2)
x∈Rd(2)
是由 d 维实数特征组成的,即
x
=
[
x
1
,
x
2
,
.
.
.
,
x
d
]
T
(
3
)
x = [x_{1},x_{2},...,x_{d}]^T \qquad\qquad\qquad (3)
x=[x1,x2,...,xd]T(3)
其中 T 是转置符号。
假设要研究的类别有 c 个,记作 wi,i = 1,2,…,c。类别数 c 已知,且各类的先验概率也都已知。另外,还假定各类中样本的分布密度即类条件密度 P(x|wi) 也是已知的。我们所做的决策就是,对于某个未知样本 x,判断它属于哪一类。
任一决策都有可能会有错误。对两类问题,在样本 x 上错误的概率为:
P
(
e
∣
x
)
=
{
P
(
w
2
∣
x
)
如
果
决
策
x
∈
w
1
P
(
w
1
∣
x
)
如
果
决
策
x
∈
w
2
(
4
)
P(e|x)=\left\{\begin{array}{ll} P(w_{2}|x) & 如果决策 x ∈ w_{1} \\ P(w_{1}|x) & 如果决策 x ∈ w_{2} \end{array}\right. \qquad\qquad\qquad (4)
P(e∣x)={P(w2∣x)P(w1∣x)如果决策x∈w1如果决策x∈w2(4)
错误率定义为所有服从同样分布的独立样本上错误概率的期望,即:
P
(
e
)
=
∫
P
(
e
∣
x
)
P
(
x
)
d
x
(
5
)
P(e)=\int P(e|x)P(x) dx \qquad\qquad\qquad (5)
P(e)=∫P(e∣x)P(x)dx(5)
表示在特征 x (向量或标量)的全部取值空间做积分。
在所有样本上做出正确决策的概率就是正确率,通常记为 P©。显然 P© = 1 - P(e)。
2、最小错误率贝叶斯决策
在一般的模式识别问题中,人们往往希望尽量减少分类的错误,即目标是追求最小错误率。从最小错误率的角度出发,利用概率论中的贝叶斯公式,就能得出使错误率最小的分类决策,称之为最小错误率决策。
最小决策率就是求解一种决策规则,使式 (5) 最小化,即:
m
i
n
P
(
e
)
=
∫
P
(
e
∣
x
)
P
(
x
)
d
x
(
6
)
minP(e)=\int P(e|x)P(x) dx \qquad\qquad\qquad (6)
minP(e)=∫P(e∣x)P(x)dx(6)
由于对所有 x,P(e|x) ≥ 0,P(x) ≥ 0,所以上式等价于对所有 x 最小化 P(e|x)。由式 (4) 可知,使错误率最小的决策就是使后验概率最大的决策,因此,对于两类问题,得到如下的策略规则:
如果 P(w1|x) > P(w2|x),则 x ∈ w1;反之,则 x ∈ w2
这就是最小错误率决策。
用贝叶斯公式求得:
P
(
w
i
∣
x
)
=
P
(
x
,
w
i
)
P
(
x
)
=
P
(
x
∣
w
i
)
P
(
w
i
)
∑
j
=
1
2
P
(
x
∣
w
j
)
P
(
w
j
)
,
i
=
1
,
2
(
7
)
P(w_{i} | x) = \frac {P(x,w_{i})} {P(x)} = \frac {P(x|w_{i})P(w_{i})} {\sum_{j=1}^{2}P(x|w_{j})P(w_{j})},i = 1,2 \qquad\qquad\qquad (7)
P(wi∣x)=P(x)P(x,wi)=∑j=12P(x∣wj)P(wj)P(x∣wi)P(wi),i=1,2(7)
最小错误率贝叶斯决策规则可以表示成多种等价的形式,比如:
若
P
(
w
i
∣
x
)
=
m
a
x
j
=
1
,
2
P
(
w
j
∣
x
)
,
则
x
∈
w
i
若 P(w_{i}|x)=max_{j=1,2}P(w_{j}|x),则 \quad x∈w_{i}
若P(wi∣x)=maxj=1,2P(wj∣x),则x∈wi
由式 (7) ,因为两类分母相同,所以决策时实际上只需要比较分子,即:
若
P
(
x
∣
w
i
)
P
(
w
i
)
=
m
a
x
j
=
1
,
2
P
(
x
∣
w
j
)
P
(
w
j
)
,
则
x
∈
w
i
若 P(x|w_{i})P(w_{i})=max_{j=1,2}P(x|w_{j})P(w_{j}),则 \quad x∈w_{i}
若P(x∣wi)P(wi)=maxj=1,2P(x∣wj)P(wj),则x∈wi
由于先验概率是事先确定的,与当前样本 x 无关,因此,人们常常把决策规则整理成下面的形式:
若
l
(
x
)
=
P
(
x
∣
w
1
)
P
(
x
∣
w
2
)
>
<
λ
=
P
(
w
2
)
P
(
w
1
)
,
则
x
∈
{
w
1
w
2
(
8
)
若 l(x) = \frac {P(x|w_{1})}{P(x|w_{2})} \frac{>}{<} \lambda = \frac {P(w_{2})}{P(w_{1})},则x∈\left\{\begin{array}{ll} w_{1} \\ w_{2} \end{array}\right. \qquad\qquad\qquad (8)
若l(x)=P(x∣w2)P(x∣w1)<>λ=P(w1)P(w2),则x∈{w1w2(8)
这样,可以事先计算出似然比阈值 λ,对于每一个样本计算 l(x),与 λ 比较,大于阈值则决策为第一类,小于阈值则决策为第二类。概率密度 P(x|w1) 反映了在 w1 类中观察到特征值 x 的相对可能性(likelihood),也称为似然度,l(x) 称为似然比。
很多情况下,用对数形式进行计算可能会更加方便,因此人们定义了对数似然比 h(x) = - ln[l(x)] = - lnP(x|w1) + lnP(x|w2)。注意,这里取的是负对数,决策规则变成了如下形式:
若
h
(
x
)
<
>
l
n
P
(
w
1
)
P
(
w
2
)
,
则
x
∈
{
w
1
w
2
(
9
)
若 h(x) \frac{<}{>} ln \frac {P(w_{1})}{P(w_{2})},则x∈\left\{\begin{array}{ll} w_{1} \\ w_{2} \end{array}\right. \qquad\qquad\qquad (9)
若h(x)><lnP(w2)P(w1),则x∈{w1w2(9)
一个例子:
假设每个要识别的细胞的图像已做过预处理,抽取出 d 个表示细胞基本特性的特征,构成 d 维空间的向量 x,识别的目的是要将 x 分类为正常细胞和异常细胞。用决策的术语来讲就是将 x 归类于两种可能的状态之一,如用 w 表示状态,则 w = w1 表示正常,w = w2 表示异常。
对于实验者来说,细胞的类别状态是一个随机变量,我们可以估计出现某种状态的概率。例如,根据医院病例检查的大量统计资料,可以对某一地区这种类型病例中正常细胞和异常细胞出现的比例做出估计,这就是贝叶斯决策中要求已知的先验概率 P(w1) 和 P(w2)。对于两类问题,显然 P(w1) + P(w2) = 1。
先验概率只能提供对整体上两类细胞出现比例的估计,不能用于对个体的判断。想对个体样本做出判断需要根据特性 x 计算得出的后验概率。这里假定使用一个特性,比如图像中细胞核总的光密度,即维数 d = 1。根据医学知识和以前的大量正常细胞和癌细胞的图像数据,我们可以分别得到正常细胞光密度的概率密度和癌细胞光密度的概率密度,即类条件概率密度 P(x|w1) 和 P(x|w2),如图:
利用贝叶斯公式,我们可以通过观察 x 把状态的先验概率 P(wi) 转化为后验概率 P(wi|x),i=1,2,如图:
显然,我们也有 P(w1|x) + P(w2|x) = 1。最后的决策就是后验概率大的一类。
从图二可以看出,这种决策的实际的分界线就是图中的虚线位置:如果样本 x 落在分界线左侧则归类为第一类(正常细胞),落在右侧则归为第二类(癌细胞)。这一分界线称作决策边界或分类线。在多维的情况下称作决策面或分类面,它把特征空间划分成属于各类的区域。
我们来分析一下错误率。决策边界把 x 轴分割成两个区域,分别称为第一类和第二类的决策区域 R1 和 R2。R1 为 (-∞,t),R2 为 (t,∞)。样本在 R1 中但属于第二类的概率和样本在 R2 中但属于第一类的概率就是出现错误的概率,再考虑到样本自身的分布后就是平均错误率:
P
(
e
)
=
P
(
w
2
)
P
2
(
e
)
+
P
(
w
1
)
P
1
(
e
)
(
10
)
P(e)=P(w_{2})P_{2}(e) + P(w_{1})P_{1}(e) \qquad\qquad\qquad (10)
P(e)=P(w2)P2(e)+P(w1)P1(e)(10)
其中:
P
1
(
e
)
=
∫
R
2
P
(
x
∣
w
1
)
d
x
(
11
)
P_{1}(e)=\int_{R_{2}}P(x|w_{1})dx \qquad\qquad\qquad (11)
P1(e)=∫R2P(x∣w1)dx(11)
是把第一类样本决策为第二类的错误率;而:
P
2
(
e
)
=
∫
R
1
P
(
x
∣
w
2
)
d
x
(
12
)
P_{2}(e)=\int_{R_{1}}P(x|w_{2})dx \qquad\qquad\qquad (12)
P2(e)=∫R1P(x∣w2)dx(12)
是把第二类样本决策为第一类的错误率。
两种错误率用相应类别的先验概率加权就是总的平均错误率,如图:
下面举一个有数值的例子:
假设在某个局部地区细胞识别中正常(w1)和异常(w2)两类的先验概率分别为:
正常状态 P(w1) = 0.9
异常状态 P(w2) = 0.1
现有一待识别的细胞,其观察值为 x,从类条件概率密度曲线上分别查得:
P(x|w1) = 0.2, P(x|w2) = 0.4
试对该细胞 x 进行分类。
解:
利用贝叶斯公式,分别计算出 w1及 w2 的后验概率:
P
(
w
1
∣
x
)
=
P
(
x
∣
w
1
)
P
(
w
1
)
∑
j
=
1
2
P
(
x
∣
w
j
)
P
(
w
j
)
=
0.2
×
0.9
0.2
×
0.9
+
0.4
×
0.1
=
0.818
P(w_{1}|x)=\frac{P(x|w_{1})P(w_{1})}{\sum_{j=1}^{2}P(x|w_{j})P(w_{j})}=\frac{0.2×0.9}{0.2×0.9+0.4×0.1}=0.818
P(w1∣x)=∑j=12P(x∣wj)P(wj)P(x∣w1)P(w1)=0.2×0.9+0.4×0.10.2×0.9=0.818
P ( w 2 ∣ x ) = 1 − P ( w 1 ∣ x ) = 0.182 P(w_{2}|x)=1-P(w_{1}|x)=0.182 P(w2∣x)=1−P(w1∣x)=0.182
根据贝叶斯决策规则式,因为:
P
(
w
1
∣
x
)
=
0.818
>
P
(
w
2
∣
x
)
=
0.182
P(w_{1}|x) = 0.818 >P(w_{2}|x) = 0.182
P(w1∣x)=0.818>P(w2∣x)=0.182
所以合理的决策是把 x 归类为正常状态。
可以把每一类的后验概率 P(wi|x) 或者 P(x|wi) P(wi) 看作是该类的一个判别函数 gi(x),决策的过程就是各类的判别函数比较大小,如图:
多类别决策过程中,要把特征空间分割成 R1.R2,…,Rc 个区域,可能错分的情况很多,平均错误概率 P(e) 将由 c(c-1) 项组成,但这样计算量比较大。可以通过计算平均正确率 P© 来计算错误率:
P
(
c
)
=
∑
j
=
1
c
P
(
x
∈
R
j
∣
w
j
)
P
(
w
j
)
=
∑
j
=
1
c
∫
R
i
P
(
x
∣
w
j
)
P
(
w
j
)
d
x
(
13
)
P(c)=\sum_{j=1}^{c}P(x ∈ R_{j}|w_{j})P(w_{j})=\sum_{j=1}^{c}\int_{R_{i}}P(x|w_{j})P(w_{j})dx \qquad \qquad \qquad (13)
P(c)=j=1∑cP(x∈Rj∣wj)P(wj)=j=1∑c∫RiP(x∣wj)P(wj)dx(13)
P ( e ) = 1 − P ( c ) = 1 − ∑ j = 1 c ∫ R i P ( x ∣ w j ) P ( w j ) d x ( 14 ) P(e)=1-P(c)=1-\sum_{j=1}^{c}\int_{R_{i}}P(x|w_{j})P(w_{j})dx \qquad \qquad \qquad (14) P(e)=1−P(c)=1−j=1∑c∫RiP(x∣wj)P(wj)dx(14)
3、最小风险贝叶斯决策
根据场合的不同,我们关心的有可能并不仅是错误率,而是错误所带来的损失。
所谓的最小风险贝叶斯决策,就是考虑各种错误造成损失不同时的一种最优决策。
下面用决策论的概念把问题表述一下:
-
把样本 x 看作 d 维随机向量 x = [x1,x2,…,xd]T
-
状态空间 Ω 由 c 个可能的状态(c 类)组成:Ω = {ω1,ω2,…,ωc}
-
对随机向量 x 可能采取的决策组成了决策空间,它由 k 个决策组成:A = {α1,α2,…,αk};注意,这里没有假定 k = c。这是更一般的情况,比如,有时除了判别为某一类外,对某些样本还可以做出拒绝的决策,即不能判断属于任何一类;有时也可以在决策时把几类合并成同一个大类等。
-
设对于实际状态为 ωj 的向量 x,采取决策 αi 所带来的损失为:λ(αi,ωj);称作损失函数。通常它可以用表格的形式给出,叫做决策表。如下表:
决策 自然状态 ω1 ω2 … ωj … ωc α1 λ(α1,ω1) λ(α1,ω2) … λ(α1,ωj) … λ(α1,ωc) α2 λ(α2,ω1) λ(α2,ω2) … λ(α2,ωj) … λ(α2,ωc) … … … … … … … αi λ(αi,ω1) λ(αi,ω2) … λ(αi,ωj) … λ(αi,ωc) … … … … … … … αk λ(αk,ω1) λ(αk,ω2) … λ(αk,ωj) … λ(αk,ωc)
对于某个样本 x,它属于各个状态的后验概率是 P(ωj|x),对它采取决策 αi 的期望损失是:
R
(
α
i
∣
x
)
=
E
[
λ
(
α
i
,
ω
i
)
∣
x
]
=
∑
j
=
1
c
λ
(
α
i
,
ω
i
)
P
(
ω
j
∣
x
)
,
i
=
1
,
.
.
.
,
k
(
15
)
R(\alpha_{i}|x)=E[\lambda(\alpha_{i},\omega_{i})|x]=\sum_{j=1}^{c}\lambda(\alpha_{i},\omega_{i})P(\omega_{j}|x),\qquad i=1,...,k \qquad\qquad (15)
R(αi∣x)=E[λ(αi,ωi)∣x]=j=1∑cλ(αi,ωi)P(ωj∣x),i=1,...,k(15)
设有某一决策规则 α(x),它对特征空间中所有可能的样本 x 采取决策所造成的期望损失是:
R
(
α
)
=
∫
R
(
α
(
x
)
∣
x
)
P
(
x
)
d
x
(
16
)
R(α)=\int R(α(x)|x)P(x)dx \qquad\qquad\qquad (16)
R(α)=∫R(α(x)∣x)P(x)dx(16)
R(α) 称作平均风险或期望风险。最小风险贝叶斯决策就是最小化这一期望风险,即:
m
i
n
α
R
(
α
)
min_{α} R(α)
minαR(α)
在式 (16) 中,R(α(x)|x) 和 P(x) 都是非负的,且 P(x) 是已知的,与决策准则无关。要使积分和最小,就是要对所有 x 都使 R(α(x)|x) 最小。因此,最小风险贝叶斯决策就是:
若
R
(
α
i
∣
x
)
=
m
i
n
j
=
1
,
.
.
.
,
k
R
(
α
j
∣
x
)
,
则
α
=
α
i
(
17
)
若\quad R(\alpha_{i}|x)=min_{j=1,...,k}R(\alpha_{j}|x),则\quad \alpha = \alpha_{i} \qquad\qquad\qquad (17)
若R(αi∣x)=minj=1,...,kR(αj∣x),则α=αi(17)
对于一个实际问题,对样本 x,最小风险贝叶斯决策可以按照以下步骤计算:
-
利用贝叶斯公式计算后验概率;
-
利用决策表,计算条件风险:
R ( α i ∣ x ) = ∑ j = 1 c λ ( α i , ω i ) P ( ω j ∣ x ) , i = 1 , . . . , k ( 18 ) R(\alpha_{i}|x)=\sum_{j=1}^{c}\lambda(\alpha_{i},\omega_{i})P(\omega_{j}|x),\qquad i=1,...,k \qquad\qquad (18) R(αi∣x)=j=1∑cλ(αi,ωi)P(ωj∣x),i=1,...,k(18) -
决策:在各种决策中选择风险较小的决策,即:
α = a r g m i n i = 1 , . . . , k R ( α i ∣ x ) ( 19 ) \alpha = arg \quad min_{i=1,...,k}R(\alpha_{i}|x) \qquad\qquad\qquad (19) α=argmini=1,...,kR(αi∣x)(19)
一个带有数值的例子:
在前面例子的基础上,利用下表的决策表,按最小风险贝叶斯决策进行分类。
决策 | 状态 | |
---|---|---|
ω1 | ω2 | |
α1 | 0 | 6 |
α2 | 1 | 0 |
解:
已知条件为
P(ω1) = 0.9, P(ω2) = 0.1
P(x|ω2) = 0.2, P(x|ω2) = 0.4
λ11 = 0, λ12 = 6
λ21 = 1, λ22 = 0
根据上面的计算结果可知后验概率为:
P(ω1|x) = 0.818, P(ω2|x) = 0.182
再按式 (24) 计算出条件风险:
R
(
α
1
∣
x
)
=
∑
j
=
1
2
λ
1
j
P
(
ω
j
∣
x
)
=
λ
12
P
(
ω
2
∣
x
)
=
1.092
R(\alpha_{1}|x) = \sum_{j=1}^{2}\lambda_{1j}P(\omega_{j}|x)=\lambda_{12}P(\omega_{2}|x)=1.092
R(α1∣x)=j=1∑2λ1jP(ωj∣x)=λ12P(ω2∣x)=1.092
R ( α 2 ∣ x ) = λ 21 P ( ω 1 ∣ x ) = 0.818 R(\alpha_{2}|x) =\lambda_{21}P(\omega_{1}|x)=0.818 R(α2∣x)=λ21P(ω1∣x)=0.818
由于
R
(
α
1
∣
x
)
>
R
(
α
2
∣
x
)
R(\alpha_{1}|x)>R(\alpha_{2}|x)
R(α1∣x)>R(α2∣x)
P(ω1|x) = 0.818, P(ω2|x) = 0.182
再按式 (24) 计算出条件风险:
R
(
α
1
∣
x
)
=
∑
j
=
1
2
λ
1
j
P
(
ω
j
∣
x
)
=
λ
12
P
(
ω
2
∣
x
)
=
1.092
R(\alpha_{1}|x) = \sum_{j=1}^{2}\lambda_{1j}P(\omega_{j}|x)=\lambda_{12}P(\omega_{2}|x)=1.092
R(α1∣x)=j=1∑2λ1jP(ωj∣x)=λ12P(ω2∣x)=1.092
R ( α 2 ∣ x ) = λ 21 P ( ω 1 ∣ x ) = 0.818 R(\alpha_{2}|x) =\lambda_{21}P(\omega_{1}|x)=0.818 R(α2∣x)=λ21P(ω1∣x)=0.818
由于
R
(
α
1
∣
x
)
>
R
(
α
2
∣
x
)
R(\alpha_{1}|x)>R(\alpha_{2}|x)
R(α1∣x)>R(α2∣x)
即决策为 ω2 的条件风险小于决策为 ω1 的条件风险,因此我们采取决策行动 α2,即判断细胞 x 为 ω2 类——异常细胞。
(待续…)