机器学习笔记-2.模型评估与选择之比较检验

1. 如何进行比较检验

有了实验评估方法和评估指标，看似可以对分类器的性能进行评估比较了：先使用某种试验评估方法测得分类器的某个评估指标结果，然后对这些结果进行比较。但怎么来做这个“比较”呢？

直接选取相应评估方法在相应度量下比大小的方法不可取！

因为关于性能比较：

统计假设检验

统计假设检验为分类器的性能比较提供了重要依据，基于其结果我们可以推断出，若在测试集上观察到分类器A比B好，则A的泛化性能是否在统计意义上优于B，以及这个结论的把握有多大。

假设检验是数理统计学中根据一定条件由样本推断总体的一种方法。假设检验定义如下：

在总体的分布函数完全未知或已知其形式，但不知其参数的情况，为了推断总体的某些未知特性，提出一些关于总体的假设。我们要根据样本对所提出的的假设做出是接受还是拒绝的决策。

我们对这个定义分解来看：

我们来结合一个例子来理解假设检验的定义，以分类任务的【错误率】为例

条件：现实中我们不知道学习器的泛化错误率，只能获知其测试错误率。但是二者的分布情况极有可能相似。这就符合了定义中“分布函数完全未知或已知其形式但不知其参数”的情况。
目标：要推断的未知特性：若在测试集上观察到分类器A比B好，则A的泛化性能是否在统计意义上优于B，以及这个结论的把握有多大。
方法：以书中的例子为例，“ ”，将泛化错误率假设为某数值。
行动：通过显著度来判断做出的假设该被接受还是被拒绝。

2.对单个学习器泛化性能的假设的检验方法：二项检验和 t 检验

二项检验（对于一个测试误差率）

在包含了机器学习笔记-2.模型评估与选择之比较检验个样本的测试集上，【泛化错误率为的学习器】被测得测试错误率为的概率为：

机器学习笔记-2.模型评估与选择之比较检验（因为测试错误率为意味着在个测试样本中恰有X个被误分类。）

可见，这个概率服从二项分布。

机器学习笔记-2.模型评估与选择之比较检验

作出假设：假设泛化错误率不大于机器学习笔记-2.模型评估与选择之比较检验

如何检验：实际上我们只能通过测试错误率来判断是否接受这个假设。那么需要设定一个临界值机器学习笔记-2.模型评估与选择之比较检验，（最大错误率）

观测值不超过这个临界值，则接受；观测值超过这个临界值，则不接受。

这里临界值的设定，要涉及显著度（也叫显著性水平）

显著性水平是估计总体参数落在某一区间内，可能犯错误的概率，用表示，即原假设为真时，拒绝原假设的概率。它是进行假设检验时事先确定一个可允许的作为判断界限的小概率标准。相应地，为置信度或置信水平，其表明了区间估计的可靠性。
通常取0.1、0.05、0.01，此时分别代表原假设为真时，拒绝原假设的概率为10%、5%、1%，说明对该假设做出的判断有90%、95%、99%的可靠性。