加州理工机器学习与数据挖掘(一)

时间:2022-12-04 19:38:02

第一讲:

一个例子:预测一个观看者将如何评价一个电影

一家出租电影的公司将对这个问题感兴趣。如果一家公司想提升内部系统性能?的百分之10

他在你登陆的时候会推荐一些他们认为你们可能会喜欢的电影

因为他觉得你会对这些电影评价很高

所以他们创建一个系统,并希望能够改善他。

10百分之的改善有多大帮助呢?一百万,很多的意思。

简单说就是这个工作有意义。

 

比如财务预测时候的应用。

 

这些人在干嘛?提供数据,人们进行数据分析,用不同算法,直到有人获得了奖励。

 

回顾第一个问题,可以看出机器学习的内涵。机器学习是一个应用工具

 

机器学习的内涵:由三个部分组成。

存在一个模式,没有模式就会无迹可寻(一个人评价电影的方法,与他如何评价其他电影有关,也与其他人如何评价这部电影有关)

我们就是要找出这个模型,但是还不能用数学方法确定。所以要机器学习。要依据数据来找出这样一个体系。以上就是三个部分。

 

机器学习的本质:

存在一个模式。

不能用数学去判定他。

有数据。

 

比如看电影,对于一个观众,喜欢喜剧?喜欢动作片?喜欢大片还是边缘电影?喜欢....?喜欢汤姆克鲁斯?等等

 

对于一个电影,对应这些特征,300多个因素?会喜欢某些,又有不协调的部分,总之将电影与观众比较,得出结果。

 

通过机器学习,不用去一个个调查观众了,喝茶就行

 

在这里观众是一个由不同因素构成的矢量,电影也是。

 

机器学习:从评价出发,试图找出和评价相一致的因素。

 

都缺少一个万能公示:银行用来判断给你办信用卡是否有收益,电影出租公司用来计算你是否会喜欢这个电影。

 

所以依据历史记录,反向研究,用于以后情况相同的顾客身上。

 

 

 

 

输入X:顾客信息;

输出Y:结果。

目标函数FX领域的目标函数,可以推出Y

 

用一致的x1y1   .....xnyn的数据

 

 

假设:G :由x推出yF未知,G假设的,已知。

希望G接近F

 

学习算法通过例子,得到最终假设。创造出一个公式,从现成公式模型得出,

 

从目标函数到数据到学习的算法到假设集再到最终的假设。

 

假设集H,选择学习方法,学习模型就是选出一个假设集和学习算法。

 

一个简单的模型:

输入X1.....Xd代表顾客信息

加权求和?

得到评分。与临界值进行比较。也就是说,结果是由权重和临界值决定的。

 

前提是存在一个简单的直线模型,可以划分出优质顾客、劣质顾客

 

那两个参数直接决定画出的直线。算法就是改变参数后得到移动的线,最后试图得到答案。

 

以上公式就是感知器的假设(加权求和?)

 

现在有了假设集,提供了需要的资源,现在需要算法来看数据,来训练测试需要的数据。再找一边所有的假设,找到作为最终假设输出的函数。

 

 

给出一组训练用的数据,起点,选出存在的顾客以及他们的行为。这些数据都是为了让W全中更准确。

 

算法就是更改权向量。

 

监督学习

非监督学习给你数据,祝你好运。簇。

加强监督学习