西瓜书《机器学习》课后答案——Chapter2

时间:2022-12-25 10:52:19

2.1 数据集包含1000个样本,其中500个为正例、500个为反例,将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估,试估算共有多少种划分方式。
解答:采用分层采样,即从500个正例中取350个并从500个反例中取350个作为训练集,其余作为测试集。共有 C350500C350500 种可能的划分方法。

2.2数据集包含100个样本,其中正、反例各一半,假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别(训练样本数相同时进行随机猜测),试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。
解答:
采用10折交叉验证法时,因为采用分层采样法对数据进行划分,所以每一折有5个正例5个反例。在任意9折上的分类器,由于训练正例和训练反例数相同,所以在余下一折上都是进行随机猜测,期望错误率为 50% 。总共进行10次计算,每次错误率都是 50% ,那么均值也是 50%

采用留一法时:当留出的这个样本是正例时,由于训练集中反例比正例多,所以得到的分类器总是把实例划分为反例,那么错误率为 100% ;当留出的这个样本是反例时,由于训练集中正例比反例多,所以得到的分类器总是把实例划分为正例,那么错误率为 100% 。总共得到100个分类器,每个分类器的错误率都是 100% ,平均下来还是 100%

2.3 若学习器A的 F1 值比学习器B的高,那么A的BEP值是否也比B高。
解答:
当测试集固定时,学习器的PR曲线确定的,即BEP值是确定的,但是 F1 值还取决于截断点。
当学习器A的截断点刚好位于 PA=RA 时,有 (F1)A=PA=RB ,学习器B的截断点刚好位于 PB=RB 时,有 (F1)B=PB=RB 。此时A的 F1 值比B高等价于A的BEP值比B的高。
但是对于其他截断点,结论不一定成立。

2.4 试述真正例率(TPR)、假正例率(FPR)与查准率(P)、查全率(R)之间的联系。
解答:
真正例率表示实际为真的样本中,预测也为真的样本所占的比例,和查全率是同一个概念。
假正例率表示实际为假的样本中,预测为真的样本所占的比例。
查准率表示预测为真的样本中,实际也为真的概率。

2.5 试证明式(2.22)。
解答:
排序损失的计算公式(2.21)计算的是:对所有正例,得分比其高的反例数之和,并用 m+m 进行归一化。
对于得分和该正例相同的反例,数量需要除以2。

ROC曲线中,每遇到一个正例向上走一步,每遇到一个反例向右走一步。对于所有的正例,其横坐标所代表的步数就是得分比其高的反例数。我们修改ROC空间的坐标,对横坐标乘以 m ,对纵坐标乘以 m+ ,在这个空间中每一步的刻度为1。

西瓜书《机器学习》课后答案——Chapter2

比如,上图中蓝色的线表示ROC曲线。根据这个曲线,我们可以知道正反例顺序:(反,正,[正,正,反],反,正,…)。其中,[]括起来的实例分数相同。对第一个正例,对应的区域1,区域1的面积表示排在其前面的反例数。

第二个正例和第三个正例是特殊情况,它们和一个反例得分是相同的。我们把这种情况一般化,假设有p个正例和q个反例的得分相同,那么有斜线对应的三角形的面积为 q2p ,这和公式(2.21)中的相应的情况吻合。

所以有 lrankm+m=m+mm+mAUC ,左右两边同时除以 m+m ,得到公式(2.22)。

2.6 试述错误率与ROC曲线的关系。
解答:
ROC曲线上的每个点(FPR,TPR)都对应一个错误率 FPRN+(1TPR)PN+P,
其中N为实际为负的样本数;P为实际为正的样本数。ROC上的点越靠近左上角,即FPR越靠近0,TPR越靠近1,那么错误率越小。

2.7 试证明任意一条ROC曲线都有一条代价曲线与之对应,反之亦然。
解答:
ROC空间中的一点(FPR,TPR)对应代价空间中的一条直线: y=(1TPRFPR)x+FPR 。ROC曲线上的每一点都有对应的代价直线,这样在代价空间中得到多条直线,而且直线的斜率不断减小,截距不断增加。取所有直线的下界,得到ROC曲线对应的代价曲线。当样本有限时,代价曲线是分段的;当样本无限时,代价曲线是光滑的。
分段代价曲线:代价空间中有直线 y=kx+b ,那么在ROC空间中对应点(b, 1-k-b),所以对每一段代价曲线均可找到ROC空间中的对应点,将所有点连接起来得到ROC曲线。
光滑代价曲线:代价曲线的每一点上有切线 y=kx+b ,对应ROC空间中的点(b,1-k-b),将所有的得到的点连接起来得到ROC曲线。

2.8 Min-max规范化和z-score规范化是两种常用的规范化方法。令 x x 分别表示变量在规范化前后的取值,相应的,令 xmin xmax 表示规范化前的最小值和最大值, xmin xmax 分别表示规范化后的最小值和最大值, x¯ σx 分别表示规范化前的均值和标准差,则min-max规范化、z-score规范化分别如式(2.43)和(2.44)所示。试析二者的优缺点。
x=xmin+xxminxmaxxmin(xmaxxmin)(2.43)
x=xx¯σx(2.44)
解答:
min-max对数据进行线性变换,保留了原始数据之间的关系;但是当点落在 [xmin,xmax] 外时,无法进行规范化。
z-score对数据进行变换,使得均值为0,并且数据分布变得更紧密;但是对小的 σx 比较敏感。

2.9 试述 χ2 检验过程。
待写
2.10 试述在Friedman检验中使用式(2.34)和(2.35)的区别。
待写