第3章 线性模型
3.1基本形式
给定d个属性描述的示例x=(
x
1
x_1
x1;
x
2
x_2
x2;…;
x
d
x_d
xd),
x
i
x_i
xi为x在第i个属性上的取值。
线性模型试图学得一个通过属性的线性组合来进行预测的函数
也可写为(其中w=(
w
1
w_1
w1;
w
2
w_2
w2;…;
w
d
w_d
wd) 注意是分号,故为列向量)
w,b学得之后,模型得以确定
w直观表达了各属性在预测中的重要性
3.2线性回归
1、特殊情形-当属性数目只有一个时。
(若为离散属性,属性值间有“序”关系,可通过连续化将其转化为连续值。如三值属性"高度"的取值"高" “中” "低"可转化为 {1,0.5,0.0};若属性值间不存在“序”关系,有k个属性值,常转化为k维向量。如属性“瓜类”取值“西瓜”“南瓜”“黄瓜”转化为(0,0,1),(0,1,0),(1,0,0))
以均方误差(对应欧氏距离)为性能度量,试图让其最小化从而确定w,b
w*, b* 表示w和b的解
基于均方误差最小化进行模型求解的方法称为“最小二乘法”(试图找到一条直线,使得所有样本到直线上的欧氏距离之和最小)。求解过程称为线性回归模型的最小二乘“参数估计”。
将
E
(
w
,
b
)
E_{(w,b)}
E(w,b)分别对w,b求导得
令其为零可得w,b最优解的闭式解
2、更一般情形“多元线性回归”-样本有d个属性描述,此时
数据集D表示为一个m×(d+1)大小的矩阵X(m个样本,d个属性)
把w和b置于向量一个向量形式
w
^
=
(
w
;
b
)
\hat{w}=(w;b)
w^=(w;b)
将标记记为向量y
故而可得
可见
w
^
=
(
w
;
b
)
\hat{w}=(w;b)
w^=(w;b)的解满足
求解过程
令上式为零可得
w
^
\hat{w}
w^最优解的闭式解。
此处的讨论还没太看懂-简单记录
X
T
X
X^TX
XTX不是满秩矩阵时,可能解出多个
w
^
\hat{w}
w^,他们都可以使均方误差最小化。此时选择哪个解作为输出,由学习算法的归纳偏好决定,常见做法是引入正则化项。
简写线性回归模型
假设我们认为示例所对应的输出标记是在指数尺度上变化,那就可将输出标记的对数作为线性模型逼近的目标
即“对数线性回归”。实际上是在试图让
e
w
T
+
b
e^{w^T+b}
ewT+b逼近y.
可见形式上仍是线性回归,但是实质上已是在求取输入空间到输出空间的非线性函数映射。
总结“广义线性模型”
单调可微函数 g(.)称为“联系函数”, g(.)连续且充分光滑
通俗理解广义线性模型
3.3对数几率回归
前述讲述如何使用线性模型进行回归学习,若面对分类任务呢?考虑广义线性模型中,需找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来。
如二分类任务,输出标记
y
∈
{
0
,
1
}
y\in\{0,1\}
y∈{0,1},而线性回归模型产生预测值
z
=
w
T
x
+
b
z=w^Tx+b
z=wTx+b是实值,因此需要将实值z转换为0/1值。
首选“单位阶跃函数”,但是该函数不连续,故不可用
其次,对数几率函数,可将z值转化为一个接近0 或1 的y值
带入
z
=
w
T
x
+
b
z=w^Tx+b
z=wTx+b
将y视为样本x作为正例的可能性,则1-y是其反例可能性,两者的比值
y
1
−
y
\frac{y}{1-y}
1−yy称为“几率”,反映了x作为正例的相对可能性。几率取对数得“对数几率”
l
n
y
1
−
y
ln\frac{y}{1-y}
ln1−yy.。
故而实际是用线性回归模型的预测结果去逼近真实标记的对数几率,故称模型为“对数几率回归”。
求解过程-该部分还没太看懂
3.4线性判别分析
LDA是一种经典的线性学习方法,也称“Fisher判别分析”
LDA思想:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。二维示意图如下
未完待续…
3.5多分类学习
3.6类别不平衡