1、我们有什么?
我们有训练集:{x(i), y(i)}
2、我们想要做什么?
对于一个新的样本x输入进来,我们能够把y预测的准。
3、问题有哪些?
输出空间y:
连续:回归问题
离散:分类问题
训练集:
有监督:
无监督:
半监督:
4、怎么做?
构建目标函数:训练集合的后验概率最大P(Y|X)
优化:梯度下降
5、生成模型做分类?
训练:每个类各自认为服从一个什么分布(高斯、泊松、beta),然后计算P(X|Y=k)的参数。
预测:对于输入样本x,计算各个类的p(y|x)=p(x|y)p(y)/p(x),选择概率最大的y
与判别模型的区别:直接计算p(y|x),生成模型时Baysian
6、最大熵
中午聊到最大熵,不好理解。
我们的目标是什么?
对于一个二类问题,对于一个特征x,我们想知道P{y=0|x}和P{y=1|x},然后选最大的作为x的分类结果。
如果只追求最大熵,那么显然P{y=0|x}=P{y=1|x}=1/2熵最大。
当然是有约束的,发挥训练集的作用,使得我们预测得到的分布P{y|x}与训练集的实际表现一致。
也就是说,我们的模型在p(x,y)的联合概率上保持与训练样本一致,但是在训练集合之外,尽可能充分的随机,保证好的泛化效果
7、svm
如何确定参数搜索范围2^-8 2^+8