在前面我们讨论线性回归的问题,现在我们讲讨论二元分类的问题。二元分类的值是一个离散的值,仅仅为0或1.
1. Logistic regression(逻辑回归)
在讨论线性回归的时候,我们引入了评判函数。尽管我们可以用线性回归的评判函数来评判逻辑回归,但是这通常不会取得好的效果,因此我们将使用新的评判函数
g(z)=11+e−z,其中z=−θTx(1)
我们称这个函数为logistic function或sigmoid function.对g(z)求导,可以得到
g(z)′=g(z)(1−g(z))(2)
可以得到
p(y|x;θ)=(hθ(x))y(1−hθ(x))1−y(3)
那么评判z参数的似然函数为
L(θ)=∏i=1m(hθ(x(i)))y(i)(1−hθ(x(i)))1−y(i)(4)
取
l(θ)=logL(θ)(5)
我们可以推导出
1)当
l(θ)
取得最大值时,
L(θ)
取得最大值
2)
∂∂θjl(θ)=(y−hθ(x))xj
根据这个,我们可以得出梯度下降的规则。
2. Digression: The perceptron learning algorithm
我们前面的函数的值都是连续的,而事实上我们需要一些离散的值,那么只要制定一个分界线,其上为1,其下为0,就能实现这个需求。
3. Another algorithm for maximizing
l(θ)
现在我们要介绍牛顿法,用来求最大似然值,牛顿法的总体思想,是不断进行
θ=θ−f(θ)f′θ
,迭代的结果便是
f(θ)=0
当然,我们前面的
θ
是一个向量,因此不能直接代入牛顿法中求值,因此我们要推广牛顿法,推广后的牛顿法公式如下:
θ=θ−H−1∇θl(θ)(54)
其中
Hij=∂2l(θ)∂θi∂θj(55)