前言
机器学习(统计机器学习)包括监督学习(supervised learning)、无监督学习(unsupervised learning)、半监督学习(semi-supervised learning)、强化学习(reinforcement learning)
这里主要介绍监督学习与无监督学习。
监督学习
1.什么是监督学习?
监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。
监督学习是从给定有限的训练数据出发,假设数据是独立同分布的,而且假设模型属于某个假设空间,应用某一评价准则,从假设空间中选取一个最优的模型,使它对已给的训练数据及未知测试数据在给定评价标准意义下有最准确的预测。
通俗一点来说就是从给定输入和输出的训练数据中集中学习输入和输出之间的映射函数,利用该映射函数预测出测试样本的输出值,其中训练集中的每个样本都由输入和对应的输出组成
所以说,在监督学习中训练数据既有特征(feature) 又有 标签(label),通过训练,让机器可以自己找到特征和标签之间的联系,在面对只有特征没有标签的数据时,可以判断出标签。
2.监督学习的分类
监督学习包括回归(Regression)和分类(Classification)
回归——预测的目标值是数值型连续变量(比如预测明天的平均气温)
分类——预测的目标是离散变量(比如预测明天是晴天、雨天还是阴天)
回归算法包括:线性回归、普通最小二乘法、LOESS(局部回归)、神经网络
分类算法包括:KNN、逻辑回归、随机森林、决策树、支持向量机SVM、贝叶斯
无监督学习
1.什么是无监督学习?
只给计算机训练数据,不给标签,因此计算机无法准确的知道哪些数据具有哪些标签,只能凭借强大的计算能力分析数据的特征,发现数据本身的内部结构特点。
即我们不知道数据集中数据、特征之间的关系,而是要根据聚类或一定的模型得到数据之间的关系。
所以说无监督学习只有特征(feature) ,没有标签(label)
2.无监督学习的方法
(1) 密度估计:指设法找到各类别在特征空间的分布参数,再进行分类。(近似分布)
(2) 聚类分析:其原理是设法定出不同类别的初始内核,然后依据样本与核心之间的相似性度量将样本聚集成不同的类别。(进行分组)
(3) 降维:选择相关变量。
无监督学习的算法:主成分分析(PCA)、线性判别分析(LDA)、K-means聚类、系统聚类
监督学习与无监督学习的区别
1.监督学习有特征有标签,无监督学习只有特征没有标签
2.监督机器学习的核心是分类,无监督机器学习的核心是聚类(将数据集合分成由类似的对象组成的多个类)。
3.监督学习的输入如果是n维,特征即被认定为n维,通常不具有降维的能力。而无监督经常要参与深度学习,做特征提取,或者干脆采用层聚类或者项聚类,以减少数据特征的维度。
4.监督学习属于分类同时定性,即监督学习的输出结果,也就是分好类的结果会被直接贴上标签,无论好坏,分类分好了,标签也同时贴好了。无监督属于先聚类后定性,有点类似于批处理。
5.数据和数据的分布之间存在联系。作为训练样本,大的偏移很可能会给分类器带来很大的噪声,而对于无监督,情况就会好很多。可见,独立分布数据更适合监督学习,非独立数据更适合无监督学习。
6.监督学习不透明解释性差,无监督学习具有透明性和可解释性。
如何选择?
在标签和训练数据都没有的情况下,毫无疑问是无监督。但其实对数据了解得越充分,模型的建立就会越准确,学习需要的时间就会越短。我们主要应该了解数据的以下特性: 特征值是离散型变量还是连续型变量;特征值中是否存在缺失的值;何种原因造成缺失值;数据中是否存在异常值;某个特征发生的频率如何。
参考资料:有监督学习与无监督学习的几大区别