笔记 加州理工学院公开课:机器学习与数据挖掘 一

时间:2022-06-06 01:36:32

对目前在看的一个公开课做一下笔记 第一课的连接在这里:http://open.163.com/movie/2012/2/3/C/M8FH262HJ_M8FTVDQ3C.html

这门课是caltech的机器学习的入门课程 就相当于科普性质的 主要想巩固一下以前学的知识 尽量解释概念 少贴公式

本门课的讲师是Yaser Abu-Mostafa教授 caltech的大牛 能可贵的是他跟产业界有很多联系 所以这门课讲到很多实践的东西


第一课是 学习问题

这一课的主要内容是介绍什么是学习 首先是三个前提:1 数据中有固定的模式存在 即有一定规律的 2 这个模式不能用数学公式精确的描述 要是能描述就不用学习了 3 有数据 其实这里的学习概念跟我们生活中的学习是不一样的 这里的学习并不具有智能的含义 只是说从数据中寻找不能用数学公式精确描述的规律 它有很多限制 而我们生活中的学习则高级得多的多

还有就是学习的分类 按照他的说法 分为1 监督学习 2 无监督学习 3 强化学习 前两者自不用说 其中一个例子比较好 就是把无监督学习类比于人类在没有资料的情况下学习一种语言 而强化学习跟前两者的不同就是它的反馈不是绝对的 而是一个评分 比如看电影的评分 

另外 最后的Q&A环节 一个亚裔口音的男生转述了很多问题 虽然很多问题看似比较简单 比如数据怎么来的 但是教授仍然很耐心的回答 据我猜测这可能是一个本科生的课程 所以caltech的氛围真的是很不一样


第二课是 学习的可行性

这节课讨论的是能否学习 也就是所谓学习概念的理论基础 我一开始还以为是拿着数据讨论是不是可以学习 线性还是非线性之类的 但是教授确实从纯数学的角度讨论了一般意义上为什么可以从数据中学习到一个合理的hypothesis 简单讲就是为什么频率可以等于概率 学过统计课程的知道当样本数量足够大的时候频率就可以等于概率 这个理论的核心便是hoeffding不等式:

笔记 加州理工学院公开课:机器学习与数据挖掘 一这里的nu是频率 mu是概率 epsilon是两者的误差 N是取样次数 从这个公式可以看出 频率等于概率的可能性与N是正相关  而epsilon却是矛盾的 因为当epsilon很小 右边的指数函数近似于1 那就是左边频率不等于概率的概率小于1 这个等于没说 所以频率等于概率这个声明是PAC的 即probably approximately correct

而hoeffding不等式是如何跟学习问题联系在一起的呢 首先把频率和概率换一种说法 因为频率是样本之中的 因此设为Ein 即in sample 而概率是样本之外的 设为Eout 即out of sample 而我们需要验证的是不同hypothesis的效果 因为就有Ein(h) 和 Eout(h) 那hoeffding不等式就变成了

笔记 加州理工学院公开课:机器学习与数据挖掘 一这个公式跟原来的是一模一样的 也只不过是证明了频率等于概率 但是hypothesis是很多的 那么这个公式就不适用了 比如掷一枚硬币十次 十次全朝上的几率大约是0.1% 而掷1000枚硬币 其中有一枚十次全朝上的几率是63% 因此需要加一个求和符号:

笔记 加州理工学院公开课:机器学习与数据挖掘 一这里g是最终选定的那个hypothesis M是所有可选的hypothesis的个数 这个公式的意思就是说hypothesis太多的话结果不会太好 比如如果一个实验中参数设置太多 那么就不容易得出一个合适的结论 也就是当M太大 频率就可能不等于概率了

最后Q&A里有人问hoeffding是怎么证明学习可行的 看来还是有人听了一节课不知道跟题目啥关系 那么回答就是原始的hoeffding不等式只是证明了频率等于概率这个事 而谈到学习 则需要考虑多种情况同时发生 因此需要加上一个M 好吧 好像没啥实践意义 就当了解一下吧