2.1 数据集包含1000个样本,其中500个为正例、500个为反例,将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估,试估算共有多少种划分方式。
解答:采用分层采样,即从500个正例中取350个并从500个反例中取350个作为训练集,其余作为测试集。共有
2.2数据集包含100个样本,其中正、反例各一半,假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别(训练样本数相同时进行随机猜测),试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。
解答:
采用10折交叉验证法时,因为采用分层采样法对数据进行划分,所以每一折有5个正例5个反例。在任意9折上的分类器,由于训练正例和训练反例数相同,所以在余下一折上都是进行随机猜测,期望错误率为
采用留一法时:当留出的这个样本是正例时,由于训练集中反例比正例多,所以得到的分类器总是把实例划分为反例,那么错误率为
2.3 若学习器A的
解答:
当测试集固定时,学习器的PR曲线确定的,即BEP值是确定的,但是
当学习器A的截断点刚好位于
但是对于其他截断点,结论不一定成立。
2.4 试述真正例率(TPR)、假正例率(FPR)与查准率(P)、查全率(R)之间的联系。
解答:
真正例率表示实际为真的样本中,预测也为真的样本所占的比例,和查全率是同一个概念。
假正例率表示实际为假的样本中,预测为真的样本所占的比例。
查准率表示预测为真的样本中,实际也为真的概率。
2.5 试证明式(2.22)。
解答:
排序损失的计算公式(2.21)计算的是:对所有正例,得分比其高的反例数之和,并用
对于得分和该正例相同的反例,数量需要除以2。
ROC曲线中,每遇到一个正例向上走一步,每遇到一个反例向右走一步。对于所有的正例,其横坐标所代表的步数就是得分比其高的反例数。我们修改ROC空间的坐标,对横坐标乘以
比如,上图中蓝色的线表示ROC曲线。根据这个曲线,我们可以知道正反例顺序:(反,正,[正,正,反],反,正,…)。其中,[]括起来的实例分数相同。对第一个正例,对应的区域1,区域1的面积表示排在其前面的反例数。
第二个正例和第三个正例是特殊情况,它们和一个反例得分是相同的。我们把这种情况一般化,假设有p个正例和q个反例的得分相同,那么有斜线对应的三角形的面积为
所以有
2.6 试述错误率与ROC曲线的关系。
解答:
ROC曲线上的每个点(FPR,TPR)都对应一个错误率
其中N为实际为负的样本数;P为实际为正的样本数。ROC上的点越靠近左上角,即FPR越靠近0,TPR越靠近1,那么错误率越小。
2.7 试证明任意一条ROC曲线都有一条代价曲线与之对应,反之亦然。
解答:
ROC空间中的一点(FPR,TPR)对应代价空间中的一条直线:
分段代价曲线:代价空间中有直线
光滑代价曲线:代价曲线的每一点上有切线
2.8 Min-max规范化和z-score规范化是两种常用的规范化方法。令
解答:
min-max对数据进行线性变换,保留了原始数据之间的关系;但是当点落在
z-score对数据进行变换,使得均值为0,并且数据分布变得更紧密;但是对小的
2.9 试述
待写
2.10 试述在Friedman检验中使用式(2.34)和(2.35)的区别。
待写