数据集的划分

时间:2024-04-13 12:44:41
  • 数据集的概念

数据集的划分

 

  • 数据集的划分

            训练集、验证集、测试集必须同分布,且通过均匀随机抽样的方式将数据无交集地划分为三个集合。

            常见的划分方法:

            1. 按比例划分:通常按8:1:1的比例进行划分

            2. n折交叉检验法/留一法(适用于样本数较少的数据集):将样本数据打乱,分成n份,用n-1份作为训练集,剩下的一份做测试集,循环n次(确保n份数据,每一份都做过测试集),计算平均误差即可得到最终的模型表现评估结果。

 

  • 为什么需要验证集

            训练集用于在每一个epoch中梯度下降(即训练模型),而在每个epoch完成后,使用验证集来测试当前模型的准确率。在所有epoch训练完毕后,使用测试集测试整个模型(所有普通参数都更新完毕)的准确率。

            对于模型来说,参数分为普通参数超参数。在没有引入强化学习的前提下,普通参数是通过梯度下降进行更新的。而超参数(网络层数、神经元个数、迭代次数、学习率等需要人工调参的参数)并不在模型学习的范围,需要验证集协助人工调参。因此,验证集也可以被认为是人工调参的训练集。所以,在评价这个模型的表现时,需要一个从来没用被用于训练的测试集进行测试。

 

reference:

《tensorflow:训练集、测试集、验证集》https://blog.****.net/LUFANGBO/article/details/79308290