错误衡量(Error Measure)
有两种错误计算方法:
第一种叫0/1错误,只要【预测≠目标】则认为犯错,通常用于分类;通常选择,错误比较大的值作为y˜的值
第二种叫平方错误,它衡量【预测与目标之间的距离】,通常用于回归。通常选择,错误均值作为y˜的值
举例说明:
还有一种错误叫做,均值错误err(y˜,y)=|y˜-y|,这是通常选择接近50%的值作为y˜的值
错误加权,以及错误加权模型,wighted pocket Algorithm
0/1错误分为两种,一种是false reject叫错误拒绝,即本来合法的识别成了非法;另一种叫false accept叫错误接受,即本来非法的识别成了合法。
举例:CIA的绝密资料库只能向有权限的人敞开,如果通过指纹核实人员身份,false accept的代价就变得非常大,这意味着一个没有权限的人接触到了国家机密!不能忍啊,于是工程师给false accept加了一个巨大的权重,训练时如果出现false accept,这个备选函数基本是要被毙掉了。
它的错误计算就变成:
这个时候就需要给Ein添加一个权重
比如false accept( 将-1识别成+1 )权重为1000,我们将训练数据中所有标记为-1的点复制1000次,如果近似函数在这些点上犯错,将会有1000倍的惩罚。这样问题就被转化为无权重问题:
并且我们已经知道Pokect算法可以解决无权重问题。其实在应用中我们也不会真的把某些数据复制1000次,我们只需在计算Error时,将权重高的数据被拜访的概率提高1000倍即可,这与复制是等效的。
不过,如果是遍历整个测试集(不是抽样)来计算错误,就没必要修改拜访概率了,只需给相应的错误乘上它们的权重再相加并除以N即可。
wighted pocket Algorithm