4.3 模型验证

时间:2021-03-13 01:23:47

4.3 模型验证

李沐

B站:https://space.bilibili.com/1567748478/channel/collectiondetail?sid=28144
课程主页:https://c.d2l.ai/stanford-cs329p/

1. 近似泛化误差

机器学习模型来说,我们最关心的就是关心模型在所有未知数据上的预测误差,也就是模型的泛化误差。但是这需要很多很多的采样,因此,可以使用近似泛化误差来代表。方法如下:

  • 使用测试集上的泛化误差来代替真正的泛化误差。(test dataset 测试集 Validation dataset 验证集)注意的是测试集只能被使用一次,但是由于测试集数据比较贵,一般使用验证集代替测试集。
  • 就像期中考试你只能做一次,不能出了成绩之后,再做一次来代替原来的成绩。
  • 使用验证数据集(常用),验证数据集可以使用多次。
  • 从训练数据集中拿出一部分来作为验证数据集。
  • 日常所说的测试测试准确率指的就是验证数据集上面的测试,并不是真正严格意义上的测试。

2. 生成验证集

2.1 随机分割

把数据