$F_\beta$ = $\frac{(1+\beta^2){\times}P{\times}R}{(\beta^2{\times}P+R)}$
当 $\beta>0$ 度量了查全率对查准率的相对重要性，当 $\beta=1$ 时退化为标准的F1； $\beta>1$ 时查全率有更大影响， $\beta<1$ 时查准率有更大影响。

ROC与AUC

roc
我们对测试样本进行排序，最可能是正例的排在最前面，然后我们可以根据需求选择不同的截断点，排序质量的好坏体现了”一般情况下泛化性能的好坏“，roc曲线则是从这个角度出发来研究机器学习泛化能力的有力工具。

周志华《机器学习》第二章模型评估与选择笔记及习题解答
Reference: https://www.jianshu.com/p/c61ae11cc5f6

横坐标：假正例率 FPR = $\frac{FP}{FP+TN}$
纵坐标：真正例率 TPR = $\frac{TP}{TP+FN}$

如何得到ROC图：
在一个二分类模型中，假设采用逻辑回归分类器，其给出针对每个实例为正类的概率，那么通过设定一个阈值如0.6，概率大于等于0.6的为正类，小于0.6的为负类。对应的就可以算出一组(FPR,TPR)
理想情况 TPR 越趋近于1并且FPR越趋近于0，则效果越好。

auc
$auc = \frac{1}{2}\displaystyle\sum_{i=1}^{m-1}(x_{i+1}-x_i)(y_{i}+y_{i+1})$
auc被定义为ROC曲线下的面积，显然不会大于1，那它意味着什么？
首先AUC值是一个概率值，当你随机挑选一个正样本以及一个负样本，正样本的score比负样本score大的概率就是auc值

代价敏感错误率与代价曲线

//todo

比较检验

假设检验

Reference: https://blog.csdn.net/andy_shenzl/article/details/81453509

$\epsilon$ ：泛化错误率
$\hat{\epsilon}$ ：测试错误率，意味着在m个测试样本中有 $\hat{\epsilon}\times{m}$ 个被误分类

以下公式代表, $\hat{\epsilon}\times{m}$ 个样本误分类的概率：
$P(\hat{\epsilon};\epsilon)$ = $C(m,\hat{\epsilon}\times{m})\epsilon^{\hat{\epsilon}\times{m}}(1-\epsilon)^{m-\hat{\epsilon}\times{m}}$
给定测试错误率 $\hat{\epsilon}$ ，计算如下公式：
周志华《机器学习》第二章模型评估与选择笔记及习题解答
$P(\hat{\epsilon};\epsilon)$ 在 $\epsilon$ = $\hat{\epsilon}$ 时最大，差值绝对值增大而减小， $P(\hat{\epsilon};\epsilon)$ 符合二项分布。

二项检验（binomial test）

提出假设：假设泛化错误率 $\epsilon$ < $\epsilon_0$
做出检验：在 $1-\alpha$ 概率内观测到的最大错误率如下公式
周志华《机器学习》第二章模型评估与选择笔记及习题解答
结论：
若 $\hat{\epsilon}$ < $\overline{\epsilon}$ (即测试错误率小于在 $1-\alpha$ 概率内观测到的最大错误率， $\alpha$ 一般取值0.05，0.1)，则认为能以 $1-\alpha$ 的置信度下可认为，泛化错误率不大于 $\epsilon_0$

t 检验（t-test）

经过K次训练(交叉验证/留出法)，会得到k个测试错误率（ $\hat{\epsilon}_1,\hat{\epsilon}_2，... ,\hat{\epsilon}_k$ ）,则平均测试错误率 $μ$ 和方差 $σ^2$ 为
周志华《机器学习》第二章模型评估与选择笔记及习题解答

考虑到这 k 个测试错误率可看作泛化错误率 ϵ0 的独立采样，则变量

服从*度为 k - 1 的 t 分布。（t分布概念）

对显著度 $\alpha$ 和假设的错误率 $\epsilon_0$ ，确定临界值，最后进行判断
若平均错误率与假设错误率之差位于临界值范围内，则认为能以 $1-\alpha$ 的置信度下可认为，泛化错误率不大于 $\epsilon_0$

交叉验证t检验

//todo

McNemar检验

//todo

Friedman检验与Nemenyi检验

//todo

偏差与方差

偏差：度量了学习算法的期望预测与真实结果的偏离程度
方差：度量了同样大小的数据集的变动所导致的学习性能的变化
噪声：表达了在当前任务上任何学习算法所能达到的期望泛化误差下界

泛化误差 = 偏差+方差+噪声

习题

1.数据集包含1000个样本，其中500个正例，500个反例，将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估，试估算共有多少种划分方式。

分层抽样：从500个正例中，抽70%做训练集，30%做测试集；从500个反例中，抽70%做训练集，30%做测试集。
即： $C_{500}^{150}{\times}C_{500}^{150}$ 种划分方式

2.数据集包含100个样本，其中正反例各一半，假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别（训练样本数相同时进行随机猜测），试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。

10折交叉验证法：因为数据集需保持一致性，所以用分层抽样法得到的数据集。即每次9份训练集中的正例反例的样本数量是一样多的，所以正确率为50%
留一法：每次只留1个作为测试集，若留正例，则测试集中反例多，会将测试集的正例预测为反例，反之亦然。错误率为 $100\%$

4.试述真正例率（TPR）、假正例率（FPR）与查准率（P）、查全率（R）之间的联系。

查全率: 数据集中真正的正例被预测为正例的比例
真正例率: 数据集中真正的正例被预测为正例的比例
查准率:预测结果中为正例的实例中真实正例的比例
假正例率: 真实反例被预测为正例的比例

秒客网

周志华《机器学习》第二章模型评估与选择笔记及习题解答

第二章模型评估与选择笔记

笔记

经验误差与泛化误差

过拟合

评估法

留出法

交叉验证法

留一法

性能度量

错误率和精度

错误率

精度

查准率、查全率与F1

查准率

查全率

F1度量

ROC与AUC

代价敏感错误率与代价曲线

比较检验

假设检验

二项检验（binomial test）

t 检验（t-test）

交叉验证t检验

McNemar检验

Friedman检验与Nemenyi检验

偏差与方差

习题

1.数据集包含1000个样本，其中500个正例，500个反例，将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估，试估算共有多少种划分方式。

2.数据集包含100个样本，其中正反例各一半，假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别（训练样本数相同时进行随机猜测），试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。

4.试述真正例率（TPR）、假正例率（FPR）与查准率（P）、查全率（R）之间的联系。

相关文章

周志华《机器学习》第二章 模型评估与选择 笔记及习题解答

第二章 模型评估与选择 笔记

笔记

经验误差与泛化误差

过拟合

评估法

留出法

交叉验证法

留一法

性能度量

错误率和精度

错误率

精度

查准率、查全率与F1

查准率

查全率

F1度量

ROC与AUC

代价敏感错误率与代价曲线

比较检验

假设检验

二项检验（binomial test）

t 检验（t-test）

交叉验证t检验

McNemar检验

Friedman检验与Nemenyi检验

偏差与方差

习题

1.数据集包含1000个样本，其中500个正例，500个反例，将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估，试估算共有多少种划分方式。

2.数据集包含100个样本，其中正反例各一半，假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别（训练样本数相同时进行随机猜测），试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。

4.试述真正例率（TPR）、假正例率（FPR）与查准率（P）、查全率（R）之间的联系。

相关文章

周志华《机器学习》第二章模型评估与选择笔记及习题解答

第二章模型评估与选择笔记