加州理工学院公开课:机器学习与数据挖掘_学习的可能性(第二课)

时间:2021-10-26 01:42:51

先说明一条公式,以后会用到:

Hoeffdings:p[|v-u|>e] <= 2^( -2Ne^2)

其中:v 是根据样本估计的概率,u 是真实概率,e 是允许的最小误差,N 是样本大小

该公式说明了只有当最坏的情况(|v-u|>e)的概率小于某个允许的值的时候,就认为可以用 v 来表示 u。

作者想要说明的问题是,机器学习是可行的,只要我们能够找到一个假设使得上面公式成立,我们就可以认为该假设是最接近实际公式的。

首先,我们有根据历史数据:S ,假设集:H。假设 H 是有限的,分别为:h1,h2,h3....hm;

对于 hi,我们输入 S 的所有数据,验证输出结果是否符合预期,若符合,则打上标号 1,否则打上标号 0.我们称这些新产生的带有标号的数据为:Ai。

接着我们从 Ai 中完全随机的选出部分数据作为样本,然后计算样本数据中标号为 1 的数据的概率v,通过它来模拟Ai 中数据标号为 1 的数据的概率u,

然后验证是否满足 Hoeffdings 公式,满足则认为可以模拟,因此 hi 就是一个合格的假设,否则认为不可以模拟。一次类推,直到找到最符合的 h。

然后找到使最 v 最大的 hi,认为这个就是最后的假设,与目标函数最接近。

我估计作者是想给我们一个直观的理解:机器学习是可行的,我们可以根据样本估计样本外的数据。

最后作者说到,如果假设集足够大,则很有可能使找到的最佳的假设其实是一个不好的假设。因为实验的次数越多,找到符合的假设的概率就越大,就好像如果你不停地抛一枚"公平"的硬币,那么当你抛的次数很多的时候你找到连续5次抛的结果都是正面向上的概率就会增大。所以假设不是越多越好,太多的假设会放大等式右边的值,相当于在等式的右边乘上一个常数M:M = 假设的数量。

只是不太明白作者的用意,貌似下面的结论否定了上面的结论,然后这个学习方法是不可取的。或者是作者想引出更好的学习方法吧?理解得不好的地方还请原谅与指正,谢谢。


在次附上一个连接,总结的很好:Coursera台大机器学习课程笔记3 – 机器学习的可能性