一、模型选择问题

15 Validation

如何选择?

视觉上 NO

不是所有资料都能可视化;人脑模型复杂度也得算上

通过Ein NO

容易过拟合;泛化能力差

通过Etest NO

能保证好的泛化,不过往往没法提前获得测试资料

15 Validation

折中:

将样本资料分为两部分,一部分用作训练,一部分用作验证

15 Validation

二、验证

15 Validation

利用验证集的模型选择:

利用所有训练数据训练所有模型,得出各个模型下的最优假设;

计算验证数据在各个模型最优假设下的代价值,选择最小代价值的模型;

利用全部样本数据训练选出来的模型,得到最优假设

15 Validation

如何选择K?

通常,K取样本总数的1/5

15 Validation

注意:

validation不见得比较慢(训练数据变少了)

15 Validation

留一交叉验证速度慢以及存在不稳定性,实际中通常不怎么用

将留一中的一个变为一份------>V折交叉验证

V常取5或10

15 Validation