交叉验证:拟合的好,同时预测也要准确
我们以K折交叉验证(k-folded cross validation)来说明它的具体步骤。{A1,A2,A3,A4,A5,A6,A7,A8,A9}
为了简化,取k=10。在原始数据A的基础上,我们随机抽取一组观测,构成一个数据子集(容量固定),记为A1A1 重复以上过程10次,我们就会获得一个数据子集集合
{A1,A2,A3,A4,A5,A6,A7,A8,A9,A10}
接下来,我们首先对模型M1M1进行交叉验证,如下,
- 在{A2,A3,A4,A5,A6,A7,A8,A9,A10}基础上构建模型M1,并对数据集A1进行验证,将预测值与真值进行比较,在某一评价标准下,计算一个得分a1,1.
- 在{A1,A3,A4,A5,A6,A7,A8,A9,A10}基础上构建模型M1,并对数据集A2进行验证,将预测值与真值进行比较,在同一评价标准下,计算一个得分a1,2.
- ……
- 在{A1,A2,A3,A4,A5,A6,A7,A8,A9}基础上构建模型,并对数据集A10进行验证,将预测值与真值进行比较,在同一评价标准下,计算一个得分a1,10.
- a1=a1,1+a1,2+…+a1,10/10作为模型M1的综合得分。
对每个模型都这样过一遍,最后得到了每个模型的一个得分,按照得分,我们就可以选择最合理的模型。