Introduction

1.1 Example of Curve Fitting

1.常见术语的定义：

1.generalization: The ability to categorize correctly new examples that differ from those used for training is called generalization;
2.classification: Task in which the aim is to assign each input vector to one of a finite number of discrete categories is called classification;
3.regression: Task in which the desired output consists of one or more continuous variables is called regression;
4.unsupervised learning: 无监督学习主要分成3类：
- clustering: discover groups of similar examples within the data;
- density estimation: determine the distribution of data within the input space;
- visualization: project the data from a high-dimensional space to two or three dimensions;
5.典型的多项式拟合问题的代价函数如下所示：w的F范数只能抑制w的元素的值的幅度，但是并不能使w变得稀疏。要使w变得稀疏，应该使用零范数。
PRML学习笔记-《Introduction》
6.在5中描述的问题里面，在原本的最小二乘估计的基础上加上了F范数作为正则项，这种参数估计的方法又叫ridge regression，在神经网络当中称为weight decay，在信号处理中称为Tikhonov正则化（样本数小于参数个数，解病态方程，为了保证最小二乘估计的参数的数值稳定性，通过正则项进行对角线加载）。

2.常见结论

1.数据集越大，我们就能用越复杂的模型拟合数据；
2.下图表示ridge regression当中正则项权重λ对训练集和测试集上误差的影响
PRML学习笔记-《Introduction》

1.2Probability theory

1.概率论当中的两个基本的准则：sum rule和product rule。sum rule：边缘概率等于联合概率求和(sum out/marginalization/variable elimination)，product rule：联合概率等于先验乘上条件概率。
PRML学习笔记-《Introduction》
2.贝叶斯法则：

p (Y | X) = p (X | Y) p (Y) p (X)

3.连续变量的概率密度函数p(x)与累计概率分布函数P(x)如下图所示
PRML学习笔记-《Introduction》

4.期望：随机函数f(x)，x服从p(x)的概率分布函数，的数学期望为：离散型x->E[f]=∑xp(x)f(x)，连续型-> E[f]=∫p(x)f(x)dx。注意多变量随机函数的期望以及条件期望

5.方差：随机函数f(x)的方差定义如下：

v a r [f] = E [(f (x) - E [f (x)]) 2] = E [f (x) 2] - E [f (x)] 2

两个随机向量x和y的协方差矩阵为，假设默认为列向量：

c o v [x, y] = E [(x - E [x]) \cdot (y - E [y]) T]

6.频率学派和贝叶斯学派观点的比较：在curve fitting例子当中，假设拟合曲线的参数为w，观测的数据点为D，则根据贝叶斯定理，有

p (w | D) = p (D | w) p (w) p (D)

也就是后验正比于先验乘似然(posterior∝likelihood×prior)
在频率学派和贝叶斯学派的观点当中，似然函数p(D|w)都扮演着重要的角色，但是使用的方法不同。频率学派认为，参数w是固定的，它的值是通过估计可能的观测数据D的分布得到。但是在贝叶斯学派看来，只有一个观测数据集D（即我们实际观测到的），参数的不确定性是通过w的概率分布表示的。

7.高斯变量概率分布，单元以及多元：
PRML学习笔记-《Introduction》

8.高斯分布的参数估计：单变量高斯分布概率密度函数用均值μ以及方差σ2刻画。给定一些数据点{x1,...,xN}，如果采用极大似然估计的方法，可以得到似然误差为：
PRML学习笔记-《Introduction》
最小化上式，可以得到参数的极大似然估计值为：

μ M L = 1 N \sum n = 1 N x n

σ 2 M L = 1 N \sum n = 1 N (x n - μ M L) 2

值得一提的上，上述对均值μ的估计是无偏的，但是对于方差的估计是有偏的，即：
PRML学习笔记-《Introduction》

接下来我们将会讲到，极大似然估计中的偏差是导致over-fitting的根本原因。

9.重温curve fitting：在前面讲到的利用多项式函数进行曲线拟合的问题当中，假设给定的数据点集为{x1,...,xN}，对应的真值为{t1,...,tN}，我们的做法是采用最小二乘法来最小化多项式函数y(xi,w)和ti之间的平方误差。现在从概率的角度来分析，假设我们的预测量y(x.w)和真实的t之间的误差服从高斯分布，也就是说

p (t | x, w, β) = N (t | y (x, w), β - 1)

其中β表示方差的倒数。则对实际观测数据集做极大似然估计得到log似然函数为：下式对参数w求偏导，可以知道，当我们令估计误差服从高斯分布时，极大似然估计就等价于普通最小二乘估计。
PRML学习笔记-《Introduction》

对于上式，我们也可以对参数β求导令为0，得到β的极大似然估计为：
PRML学习笔记-《Introduction》

根据上述概率模型进行预测的时候，对于每一个新的数据点x，上述概率模型得到的都是关于预测值t的概率分布p(t|x,wML,βML)。
现在考虑对参数w的分布加上一个先验，即假设参数w的分布服从零均值，精度为α的高斯分布，即p(w|α)=N(0,α−1I)，则根据贝叶斯法则，参数w的后验概率为

p (w | x, t, α, β) \propto p (t | x, w, β) p (w | α)

采用最大后验概率的方法(MAP)，可以得到MAP等价于下式：
PRML学习笔记-《Introduction》

可见采用MAP的估计方法就等价于在普通最小二乘的基础上加上了正则项，变成ridge regression。

1.3 Model Selection

1.cross-validation: 对于数据量比较小的情况下，交叉验证的做法是将数据分成S份，如下图所示：
PRML学习笔记-《Introduction》
对于每一个run，在S-1份数据上进行训练，在最后一份数据上验证，得到一个模型。最后测试的时候将S个模型的得分进行综合。

1.5 Decision Theory

1.假定对于一个输入的向量 x，对应一个target变量 t，相比于probability theory里面估计(x,t)的联合分布p(x,t)，决策理论更加关注的是给定输入的x，根据预测的t采取相应的行动。因此决策理论更加关注的是预测p(t|x)

2.medical diagnosis例子：给定一张输入的X光图像x，预测病人是否患有癌症t。假设t=0表示没有患癌症，t=1表示患癌症。要使预测错误的概率最小，显然我们应该选择后验概率p(t|x)最大的类别。

3.Minimizing the misclassification rate：
对于二分类问题：分类错误的概率为：
PRML学习笔记-《Introduction》
其中Decision region: Ri={x:pred(x)=Ci}，上述表达式的意思为分类错误的概率等于在预测为C1的区域，但是标签为C2的概率加上在预测为C2的区域，但是标签为C1的概率。要使上述分类错误的概率最小，对于每一个输入x，如果P(x,C1)>P(x,C2)，即P(C1|x)>P(C2|x)，则应该把x放到R1，否则应该把x放到R2，这样可以使积分最小。
对于多分类问题，为了方便，我们可以求使分类正确的概率尽可能大，即
PRML学习笔记-《Introduction》
要使上述积分项最大，应该满足对于找到使P(x,Ck)最大的k，将x放到decision region Rk当中。

4.reject option
从第3节我们知道对于一个多分类的问题，要使分类的准确率最高，应该对于每一个样本x选择使得后验概率P(Ck|x)最大的类别Ck。显然当最大的后验概率都很小，或者属于各个类别的后验概率差不多大的时候，容易出现分类错误。这个时候我们可以设置一个reject threshold，即当最大的后验概率小于该阈值θ时，我们不做判断。如下图所示：
PRML学习笔记-《Introduction》

5.Inference and decision
到目前为止我们处理分类问题主要有三种方法，按照从困难到简单为
1）估计输入x和输出Ck之间的联合概率分布p(x,Ck)，然后对于给定的x，normalize后验概率p(Ck|x)，decision stage选择后验概率最大的类别。这种模型称为generative model，因为我们可以从估计的联合概率分布中采样得到生成的数据集。
2）估计输入x到后验概率P(Ck|x)之间的映射函数，这种模型称为discriminative model
3）直接估计输入x到输出类别Ck的映射函数。比如二分类问题中，对于输入x，设置阈值，高于阈值为1，低于阈值为0.

6.loss function for regression
前面的decision theory，我们讨论的对象都是分类的问题，现在我们讨论回归的问题。
假设输入的变量为x，回归的函数为y(x)，x对应的真值为t，则类似分类问题，我们可以首先定义回归问题的loss function为：

E [L] = \int \int L (t, y (x)) p (x, t) d x d t

其中p(x,t)表示输入x和真值t之间的联合分布概率密度函数，上式计算的是回归问题loss的平均值（期望）。常见的loss为均方误差，在这种情况下，平均的loss为：

E [L] = \int \int {y (x) - t} 2 p (x, t) d x d t

我们的目标是选择y(x)使得目标函数E[L]最小，这里涉及到泛函以及变分法，即求目标函数E[L]对函数y(x)的导数。
常见的变分法公式如下所示：
PRML学习笔记-《Introduction》

应用得到导数为：

令导数等于0，得到

y (x) = \int t p (x, t) d t p (x) = \int t p (t | x) d t = E [t | x]

也就是说，要使均方误差最小，要满足y(x)=E[t|x], 如下图所示：
PRML学习笔记-《Introduction》

当然有的时候square loss并不是最好的，一种简单的均方误差的一般形式即为Minkowski loss，如下所示：

E [L q] = \int \int | y (x) - t | q p (x, t) d x d t

1.6 Information Theory

参考课本《信息论与编码》
1.离散随机事件的自信息和互信息
随机事件xk的自信息定义为I(xk)=−log2q(xk)，其中q(xk)表示事件发生的概率。显然，若某个事件发生的概率越小，则该事件实际发生带来的信息量越大。如果某个事件发生的概率为1，则该事件发生带来的信息量为0.

随机事件xk和yk之间的互信息定义为

I (x k; y k) = l o g 2 p (x k | y k) q (x k) = - l o g 2 q (x k) - {- l o g 2 p (x k | y k)}

上式的意义为，两个随机事件xk和yk之间的信息量等于事件xk单独发生带来的信息量减去在已知yk发生的情况下xk发生还能带来的信息量。互信息表示事件yk所能提供关于xk的信息量。互信息具有对称性，即I(xk;yk)=I(yk;xk)。

互信息可正可负，如果yk的发生有利于xk的验证，则互信息为正，否则为负，若事件xk和yk互不相关，则互信息为0.

2.离散随机变量的平均自信息–熵
离散随机变量X的熵的定义为平均自信息，即

H (X) = E [I (x)] = \sum q (x) I (x) = - \sum q (x) l o g 2 q (x)

显然当随机变量的概率分布为均匀分布时，随机变量的熵越大。当概率分布呈现尖峰状时，熵很小。熵描述了随机变量的不确定性。

条件熵：条件熵H(X|Y)描述了在已知随机变量Y的分布的情况下，变量X的不确定性，即事件的平均条件自信息。

H (X | Y) = E [I (x | y)] = - \sum x \sum y p (x, y) l o g 2 p (x | y)

当随机变量X和Y统计独立时，有H(X|Y)=H(X)

联合熵：联合熵H(X;Y)=E[I(x;y)]=−∑x∑yp(x,y)log2p(x,y)，即事件的平均联合自信息
联合熵的满足H(X;Y)=H(X)+H(Y|X)，即X,Y的联合不确定性等于X的不确定性加上已知X分布的情况下，Y的不确定性。

3.离散随机变量的平均互信息
根据随机事件的互信息的定义，可以很容易推倒出随机变量之间的互信息的定义为：

I (X; Y) = E [I (x; y)] = \sum \sum p (x, y) l o g 2 p (x | y) q (x)

互信息的性质：
1）非负性：I(X;Y)⩾0，虽然事件的互信息可正可负，但是随机变量的互信息是非负的
2）对称性：I(X;Y)=I(Y;X)
3）I(X;Y)=H(X)−H(X|Y)=H(Y)−H(Y|X)=H(X)+H(Y)−H(X,Y)
4）I(X;Y)⩽H(X) & I(X;Y)⩽H(Y)

4.离散概率分布的散度 –相对熵
散度定义为在同一个字符表上（即随机变量的取值范围相同）的两个概率分布之间的差异，定义为：

D (p / / q) = \sum x p (x) l o g 2 p (x) q (x)

只有当p(x)=q(x)时，散度为0，上述散度的定义也叫做相对熵，交叉熵以及KL距离。上述散度的定义是非对称的。

5.连续随机变量的互信息
两个连续随机变量X和Y之间的互信息的定义为：

I (X; Y) = E x y [I (x; y)] = \iint p (x, y) l o g 2 p (x | y) p (x) d x d y

6.连续随机变量的熵 –微分熵
离散随机变量下定义的熵不能直接推广到连续随机变量的情况。因为按照熵的定义，连续随机变量的取值范围是无穷的，熵也是无穷大的（即使是一小段区间，也无法确定变量具体可能的取值）。
对于连续变量，微分熵（HC(X)，有时也表示为h(X)）的定义如下：

H C (X) = - \int \infty - \infty p (x) l o g 2 p (x) d x

微分熵并不代表事件出现的不确定性，但微分熵仍然具备很多和离散情况下熵的性质

联合微分熵

H C (X; Y) = - \iint p (x, y) l o g 2 p (x, y) d x d y

条件微分熵

H C (X | Y) = - \iint p (x, y) l o g 2 p (x | y) d x d y

连续随机变量互信息

I (X; Y) = H C (X) - H C (X | Y) = H C (Y) - H C (Y | X)

微分熵的极大化
1）峰值受限：当微分熵的取值范围受限于(−M,M)，即∫M−Mp(x)dx=1，这时微分熵满足HC(X)⩽ln2M，当均匀分布时得到最大值
2）平均功率受限：在方差σ2一定的条件下，当X服从高斯分布时，微分熵最大，即HC(X)⩽ln(2πe−−−√σ)

秒客网

PRML学习笔记-《Introduction》