第一讲:
一个例子:预测一个观看者将如何评价一个电影
一家出租电影的公司将对这个问题感兴趣。如果一家公司想提升内部系统性能?的百分之10,
他在你登陆的时候会推荐一些他们认为你们可能会喜欢的电影
因为他觉得你会对这些电影评价很高
所以他们创建一个系统,并希望能够改善他。
10百分之的改善有多大帮助呢?一百万,很多的意思。
简单说就是这个工作有意义。
比如财务预测时候的应用。
这些人在干嘛?提供数据,人们进行数据分析,用不同算法,直到有人获得了奖励。
回顾第一个问题,可以看出机器学习的内涵。机器学习是一个应用工具
机器学习的内涵:由三个部分组成。
存在一个模式,没有模式就会无迹可寻(一个人评价电影的方法,与他如何评价其他电影有关,也与其他人如何评价这部电影有关)
我们就是要找出这个模型,但是还不能用数学方法确定。所以要机器学习。要依据数据来找出这样一个体系。以上就是三个部分。
机器学习的本质:
存在一个模式。
不能用数学去判定他。
有数据。
比如看电影,对于一个观众,喜欢喜剧?喜欢动作片?喜欢大片还是边缘电影?喜欢....?喜欢汤姆克鲁斯?等等
对于一个电影,对应这些特征,300多个因素?会喜欢某些,又有不协调的部分,总之将电影与观众比较,得出结果。
通过机器学习,不用去一个个调查观众了,喝茶就行
在这里观众是一个由不同因素构成的矢量,电影也是。
机器学习:从评价出发,试图找出和评价相一致的因素。
都缺少一个万能公示:银行用来判断给你办信用卡是否有收益,电影出租公司用来计算你是否会喜欢这个电影。
所以依据历史记录,反向研究,用于以后情况相同的顾客身上。
输入X:顾客信息;
输出Y:结果。
目标函数F:X领域的目标函数,可以推出Y。
用一致的x1,y1 .....xn,yn的数据
假设:G :由x推出y,F未知,G假设的,已知。
希望G接近F
学习算法通过例子,得到最终假设。创造出一个公式,从现成公式模型得出,
从目标函数到数据到学习的算法到假设集再到最终的假设。
假设集H,选择学习方法,学习模型就是选出一个假设集和学习算法。
一个简单的模型:
输入X1.....Xd代表顾客信息
加权求和?
得到评分。与临界值进行比较。也就是说,结果是由权重和临界值决定的。
前提是存在一个简单的直线模型,可以划分出优质顾客、劣质顾客
那两个参数直接决定画出的直线。算法就是改变参数后得到移动的线,最后试图得到答案。
以上公式就是感知器的假设(加权求和?)
现在有了假设集,提供了需要的资源,现在需要算法来看数据,来训练测试需要的数据。再找一边所有的假设,找到作为最终假设输出的函数。
给出一组训练用的数据,起点,选出存在的顾客以及他们的行为。这些数据都是为了让W全中更准确。
算法就是更改权向量。
监督学习
非监督学习给你数据,祝你好运。簇。
加强监督学习