奥卡姆剃刀:若多个假设与观察一致,则选最简单的那个。那么何为最简单的,通常我们认为参数尽量稀疏或者参数尽量小的模型是简单的,因此我们常引入正则化(惩罚项)来限制参数。
NFL(no free lunch theorem):无论学习算法如何,它们的期望值都是相同的。重要前提:所有问题出现的机会相同,或所有问题同等重要。
误差与模型复杂度:误差随着模型复杂度增大先下降后上升,过于复杂会过拟合,误差就增大。
查准率:以信息检索为例,检索出来的有多少是我们需要的。
查全率:我们需要的有多少被检索出来了。
T:ture P:positive F:false N:negative
交叉验证法(k折交叉验证):数据集D分为k个大小相似的互斥子集(尽可能保持分布一致,分层采样), 取一作为测试集,其余训练集。为了减少因样本划分不同儿引入的差别,k折交叉验证常需随机使用不同的划分重复p次(p次k折交叉验证),最后取均值。取平均的时候,一般是先求和再平均,保持数据整体特性。