机器学习总结——必须知道的那些概念

时间:2024-04-10 08:11:50

对于机器学习,必须知道以下的概念。

- 贝叶斯分类器
- 0-1损失
- 理解判别式函数和线性判别式
- 生成模型和判别式模型
- 分对数变换和logistics判别式
- softmax判别式

**

以下是对以上内容的一一总结式发言。

**

一、贝叶斯分类器
1,贝叶斯法则:

(1)概率论中,P(hD)=P(Dh)P(h))P(D)P(h|D)=\frac{P(D|h)P(h))}{P(D)},用P(h)P(h)表示在没有训练数据前假设h发生的概率,称为先验概率。先验概率反映的是在社会背景下的发生概率。
P(hD)P(h|D)是指在D发生的条件下h发生的概率,称为h的后验概率

(2)全概率公式
由乘法公式P(AB)=P(AB)P(B)=P(BA)P(A)P(AB)=P(A|B)P(B)=P(B|A)P(A)
推广到n(n>=2)维,机器学习总结——必须知道的那些概念
再得到全概率公式:
机器学习总结——必须知道的那些概念
假设B1,B2,…为有限或无限个事件,且两两相斥,满足:

  • BiBj=B_i\cap B_j=∅
  • B1BiBn=1B_1\cup Bi\cup B_n=1

设红圈圈住的为事件A,那么事件A发生的概率:
P(A)=i=1nP(Bi)P(ABi)P(A)=\sum_{i=1}^{n}P(B_i)P(A|B_i)
即在所有Bi发生的条件下A发生概率的和就是A在总体样本空间发生的概率。

(3)贝叶斯决策论(Bayesian decision theory)
是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的分类标记。

假设λλ表示将样本cjc_j误分类为cic_i所产生的损失,得到在后验概率P(cix)P(c_i|x)下将x分类为xix_i时误分类的期望损失(expected loss),决策论中也称为风险:
R(cix)=j=1NλP(cjx)R(c_i|x)=\sum_{j=1}^{N}\lambda P(c_j|x)
总体风险记为:R(h)=Ex[R(h(x))x]R(h)=E_x[R(h(x))|x]
由此产生贝叶斯判定准则:
为了最小化总体风险,只需在每个样本上选择哪个能使条件风险R(c|x)最小的类别标记,即:
h(x)=argminR(cx)cyh*(x)=argminR(c|x) c∈y
hh*就称为贝叶斯分类器1R(h)1-R(h*)反映了分类器所能达到的最好性能,即通过机器学习所能达到的模型精度的理论上限。

二、0-1损失
由上式的贝叶斯分类中的λ用的就0-1损失。那么什么是0-1损失呢?
在分类问题中,可以使用函数的正负号来进行模式判断,函数值本身的大小并不是很重要,0-1损失函数比较的是预测值fw(xi)f_w(x^{i})与真实值y(i)y^(i)的符号是否相同,0-1的具体形式如下:
机器学习总结——必须知道的那些概念
以上的函数等价于下述的函数:
12(1sign(m))\frac{1}{2}(1-sign(m))
0-1损失并不依赖m值的大小,只取决于m的正负号。0-1损失是一个非凸的函数,在求解的过程中,存在很多的不足,通常在实际的使用中将0-1损失函数作为一个标准,选择0-1损失函数的代理函数作为损失函数。这也是分类问题的损失函数依据。

三、生成式模型和判别式模型
从贝叶斯准则可以看出,我们最终需要得到的是后验概率P(c|x),现实中往往无法直接得到,而这就是我们机器学习需要求解的部分。为此,有两种策略,那就是:判别式模型(discriminiative models)和生成式模型(generative models)。

两者的区别何在呢?

  • 生成式模型:从统计的角度表现数据的分布情况,能够反映同类数据本身的相似度,不关心判别边界,其实就是聚类。。
  • 判别式模型:寻找不同类别之间的最优分类面,反映的是异类数据之间的差异,其实就是分类。

从概率论方面讲,

  • 判别式模型通过直接建模P(cx)P(c|x)来预测c
  • 生成式模型通过先对联合分布P(xc)P(xc),然后通过贝叶斯公式得到P(xc)P(x|c)

优缺点:

生成模型:
优点:
1)实际上带的信息要比判别模型丰富,研究单类问题比判别模型灵活性强
2)模型可以通过增量学习得到
3)生成模型能够应付存在隐变量的情况,比如混合高斯模型就是含有隐变量的生成方法。

缺点:
1)学习过程比较复杂。
2)实践中多数情况下判别模型效果更好。

判别模型:
优点:
1)分类边界更灵活,比使用纯概率方法或生产模型得到的更高级.
2)准确率往往较生成模型高。
3)不需要求解类别条件概率,所以允许我们对输入进行抽象(比如降维、构造等),从而能够简化学习问题。

缺点:
1)不能反映训练数据本身的特性。

三、分对数logit变换和logistics变换
Logit应该理解成Log-it,这里的it指的是Odds(胜率,等于P/1-P),Logit变换的过程如下:
机器学习总结——必须知道的那些概念
Logit模型指的是
log(P1P)=β0+β1x1++βnxnlog(\frac{P}{1-P})=\beta _0+\beta _1x_1+\cdots +\beta _nx_n
等号右边是自变量的线性组合。

而当我们说Logistics模型时,我们指的是:
P=11+e(β0+β1x1))P=\frac{1}{1+e^{-(\beta _0+\beta _1x_1))}}
如果对logit模型进行变换来求其中P的表达式,我们可以得到:
机器学习总结——必须知道的那些概念
整理得:
机器学习总结——必须知道的那些概念
其实我们发现logit和logistics是一样的东西。

但是我们又知道,Logistics这个模型的得出是线性回归+sigmoid**函数结合的成果。
sigmoid函数为:
f(x)=11+exf(x)=\frac{1}{1+e^{-x}}

机器学习总结——必须知道的那些概念
logistics回归模型的exp的指数可以是多维线性函数,这就和logit完全是一样的。
那么总结一下:
两者的联系:

- Logit模型的左侧是Odds的对数,Logistics模型的左侧是概率。
- Logit的右侧是一个线性结构,而Logistics的右侧是非线性的
- 两者可以相互转换。

四、softmax
归一化指数函数,或Softmax函数,实际上是有限项离散概率分布的梯度对数归一化。
在多项逻辑回归和线性判别分析中,函数的输入是从K个不同的线性函数得到的结果,而样本向量 x 属于第 j 个分类的概率为:
P(y=j)=exTWjk=1KexTWkP(y=j)=\frac{e^{x^T}W_j}{\sum_{k=1}^{K}e^{x^T}W_k}

详情见我之前转载的这篇




本文引用:

  • 周志华《机器学习》
  • https://zhuanlan.zhihu.com/p/30659982
  • https://blog.csdn.net/Yaphat/article/details/52574748