机器学习试题

时间:2024-11-07 07:17:36


1.什么是监督学习和非监督学习,请说明它们的区别,并各举一个例子。说明分类和回归问题的区别,并各举一个例子。
答:(1)有监督学习:对具有标记的训练样本进行学习来建立从样本特征到标记的映射。例如:支持向量机 
无监督学习:对没有标记的训练样本进行学习,以发现训练样本集中的结构性知识。聚类就是典型的无监督学习。比如:K-means等。
(2)回归是监督学习的一种,它的标记是连续取值,有大小区别,可以计算标记间的距离。比如linear回归。
分类问题是监督学习的一种,它的标记是若干个离散取值,没有大小区别,不能计算标记间的距离。针对的是离散型结果。比如,朴素贝叶斯,SVM等。


2.什么是过学习,什么情况下可能发生过学习,采取什么措施有助于消除过学习。
答: (1) 过学习是指训练误差比较小,而测试误差大得多的情况。 
(2) 模型过于复杂,参数过多;数据集相对于模型复杂度太小。
(3) 1.搜集大量的训练样本;2.用一部分样本构造验证集;3.引入正则项惩罚模型复杂度


3.给出回归(Regression)和逻辑回归(Logistic Regression)所对应的损失函数。
解:回归的损失函数: 
 
逻辑回归的损失函数: 
 


    4.简述多层感知机(MLP)中BP算法的流程。
解:BP神经网络的流程:
对所有的输入和标签对循环(1-3):
1.对某个输入从输入层沿网络传播到输出层; 
2.从输出层开始从后向前计算每个单元的delta; 
3.计算该输入对每个权值梯度的贡献
4.所有输入对梯度的贡献求和得到总梯度,根据学习率来改变原来的权值,完成了权值的一次修改。


5.有数据集D1,其中样本的特征是离散取值(可以简单地考虑取二值),数据集D2和D1基本一样,唯一的区别是D2中每个样本的某个特征被重复了100次,请问在这两个数据集上训练的朴素贝叶斯分类器是否一样,请给出具体分析。
解:
分类器是不一样的。因为朴素贝叶斯方法假设了特征间的独立性,但D2中的100个特征彼此不独立,因此不在适用,如果用了两者的结果不等。在D2上训练,被重复的特征的概率会被乘100次,放大了它的影响。


6.考虑下面样本特征为二维欧式空间点的两分类问题的训练集,分别用最近邻法和三近邻法给出测试样本点(1,1)的类别。
 
解:(1)计算距离
(x,y) Distance--(1,1)
(-1,1) √((-1-1)^2+(1-1)^2 )=2 -
(0,1) √((0-1)^2+(1-1)^2 )=1 +
(0,2) √((0-1)^2+(2-1)^2 )=√2 -
(1,-1) √((1-1)^2+(-1-1)^2 )=2 -
(1,0) √((1-1)^2+(0-1)^2 )=1 +
(1,2) √((1-1)^2+(2-1)^2 )=1 +
(2,2) √((2-1)^2+(2-1)^2 )=√2 -
(2,3) √((2-1)^2+(3-1)^2 )=√5 +

最近邻法: (0,1) +, (1,0) +, (1,2) +  ----->  +  
三近邻法: (0,1) +, (1,0) +, (1,2) +  ----->  +  


7.用两个硬币玩抛硬币的游戏,硬币1得到正面的概率为θ,硬币2得到正面的概率为2θ,你一共抛了五次,得到的结果是这样的(硬币1,正面)(硬币2,反面)(硬币2,反面)(硬币2,反面)(硬币2,正面),用极大似然法求参数θ。
解:
 
   本题需要写出推导步骤,上述每步
8.有一个训练集,其样本为二维空间的点,正样本(1,1) 、(−1,−1),负样本 (1,−1)、(−1, 1)。
正负样本在原空间是否线性可分?
(2)考虑一个特征变换φ(x) = [1, x1, x2, x1x2], 其中x1和x2为某样本x的两个坐标,在特征空间的预测函数为y(x) = wT∗φ(x),利用最大间隔方法求预测函数的参数w。(可以通过观察求解)
(3)特征映射函数φ(x)对应的核函数K(x, x’ )是什么样的?
解:(1)原问题是异或问题,正负样本线性不可分;
(2)容易写出特征映射之后的样本点的值,正样本(1,1,1,1),(1,-1,-1,1),负样本(1,1,-1,-1),(1,-1,1,-1),观察易得w取(0,0,0,1).最大间隔为2。
(3)K(x, x’ ) = <φ(x), φ(x)> = K(x,x^' )=<ϕ(x),ϕ(x^')>=x_1 x_1^'+x_2 x_2^'+〖x_1 x_2 x〗_z^' x_2^'+1。


9. 简述EM算法;论述其为什么收敛;用EM求解混合高斯模型时,在E步和M步分别做什么?
解:当存在未观测数据或缺失数据时,可以引入隐变量,这时对不完全数据直接进行极大似然求解往往比较困难。EM算法经过两个步骤交替进行计算,第一步是计算期望(E),利用对隐藏变量的现有估计值(分布),计算完全数据log似然的期望;第二步是最大化(M),最大化在E步上求得的完全数据log似然的期望来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中,这个过程不断交替进行。
在E步,把q(z)置为当前参数下所估计的隐变量的分布,从而这使得不完全数据log似然的下界在这个参数上最大化并等于不完全数据log似然;在M步,固定隐变量的分布,最大化log似然的下界来重新求参数,这等价于最大化在E步求得的隐变量分布下全数据log似然的期望。由于算法保证了每次迭代之后,似然函数都会增加,所以函数最终会收敛。
用EM算法求解GMM时,在E步,求当前参数下,每个样本由每个高斯产生的概率;在M步,根据上述概率重新计算GMM的参数。