4.3 模型验证
李沐
B站:https://space.bilibili.com/1567748478/channel/collectiondetail?sid=28144
课程主页:https://c.d2l.ai/stanford-cs329p/
1. 近似泛化误差
机器学习模型来说,我们最关心的就是关心模型在所有未知数据上的预测误差,也就是模型的泛化误差。但是这需要很多很多的采样,因此,可以使用近似泛化误差来代表。方法如下:
- 使用测试集上的泛化误差来代替真正的泛化误差。(
test dataset
测试集Validation dataset
验证集)注意的是测试集只能被使用一次,但是由于测试集数据比较贵,一般使用验证集代替测试集。 - 就像期中考试你只能做一次,不能出了成绩之后,再做一次来代替原来的成绩。
- 使用验证数据集(常用),验证数据集可以使用多次。
- 从训练数据集中拿出一部分来作为验证数据集。
- 日常所说的测试,测试准确率指的就是验证数据集上面的测试,并不是真正严格意义上的测试。
2. 生成验证集
2.1 随机分割
把数据