为了避免自己对知识遗忘过快,所以决定对自己学习机器学习的过程做一下记录,也希望能帮到一些初学者!
1、基本术语:(非常重要)
数据集:记录每条数据,数据由属性和属性值组成,这样的集合称为数据集合
示例、样本、特征向量:每条记录是关于一个事件或对象(这里是一个西瓜)的描述
属性、特征:反映时间或对象在某方面的表现或性质的事项
属性空间、样本空间、输入空间:属性张成的空间
维数:每个样本由d个属性描述(例如上面的西瓜数据使用了3个属性),d(3)称为该样本的维数
学习、训练:从数据中学的模型的过程
训练数据:训练过程中使用的数据
训练样本:每个训练数据
训练集:训练样本组成的集合
假设:学得模型对应了关于数据的某种潜在的规律
真相、真实:潜在规律自身
样例:拥有了标记信息的示例
标记空间、输出空间:所有标记的集合
2、假设空间:
假设空间其实就是样本属性所有可能的取值组成的空间,如上图色泽、根蒂、敲声对应的属性取值分别为(青绿、乌黑)、(蜷缩、硬挺、稍蜷)、(浊响、清脆、沉闷),*(星号)表示不确定值,还考虑好瓜不存在的情况,所以总共有3x4x4+1=49种情况。
3、版本空间:
存在与训练集一致的假设集合称为版本空间
4、归纳偏好:
如上图1.2所示符合训练集的假设不止一个,那么就需要归纳偏好来确定最终的假设,常用的就是奥卡姆剃刀原则。
5、NFL定理(没有免费的午餐(No Free Lunch Throrem)):
NFL定理证明的是两个学习算法a和b,若在西瓜分类问题上a算法优于b算法,并不代表a算法在解决其他问题上也优于b算法,也有可能在某个问题上b算法优于a算法。所以,NFL定理最重要意义是,在脱离实际意义情况下,空泛地谈论哪种算法好毫无意义,要谈论算法优劣必须针对具体学习问题。这样理解其实是在情理之中的,下面看下如何证明NFL定理:
要想理解上面的公式首先的明白每个字符代表的含义:
表示的是算法a在“训练集之外”的所有样本上的误差
h表示假设空间H中的一个假设,即对所有假设求和
斜体x表示假设样本空间,大写X表示训练数据,所以表示训练集之外的所有样本求和
P(x)为“在某个数据集中抽取一个能让h误判的样本的概率”
表示算法a机遇训练数据X产生假设h的概率
这样一来公式1.1就非常容易理解了,即求出了算法a在训练集之外的所有样本上的误差
由乘法的分配率的:
由:
由全概率公式,下面这一项其实等于1
所以可化简为:
这样就证明了NFL定理,我的这个系列博客会持续更新,觉得有帮助的朋友可以继续阅读我后面的文章,
《机器学习(周志华)》Chapter1 绪论 课后习题答案
参考网址:
https://www.jianshu.com/p/cbe8e0fe7b2c