机器学习分类及机器学习算法概览
机器学习可分为3类:(监督学习、无监督学习、强化学习)
1.监督学习:
监督学习表示机器学习的数据是带标记的,这些标记可以包括数据类别、数据属性及特征点位置等。这些标记作为预期效果,不断修正机器的预测结果。
每当想要根据给定输入预测某个结果,并且还有输入/输出示例时,都应该使用监督学习。
具体实现过程是:通过大量带有标记的数据来训练机器,机器将预测结果与期望结果进行对比;之后根据对比结果来修改模型中的参数,再一次输出预测结果;然后将预测结果与期望结果进行对比,重复多次直至收敛,最终形成具有一定鲁棒性的模型来达到智能决策的能力。
监督学习问题可以有两种类型:
分类:预测输出变量处于类别形式的给定样本的结果。例如男性和女性,病态和健康等标签。
回归:预测给定样本的输出变量的实值结果。例子包括表示降雨量和人的身高的实值标签。
最常用的监督机器学习算法有:
- K最近邻(kNN,k-NearestNeighbor)
- 线性回归
- 逻辑回归
- 决策树(Decision Tree)
- 随机森林
- 支持向量机(SVM,Support Vector Machine)
- 神经网络
- 朴素贝叶斯(Naive Bayesian)
2.无监督学习:
无监督学习问题只有输入变量(X),但没有相应的输出变量。
无监督学习表示机器学习的数据是没有标记的。
机器从无标记的数据中探索并推断出潜在的联系。
无监督学习问题可以有三种类型:
- 关联:发现数据集合中的相关数据共现的概率。它广泛用于市场篮子分析。例如:如果顾客购买面包,他有80%的可能购买鸡蛋。
- 聚类:对样本进行分组,使得同一个群集内的对象彼此之间的关系比另一个群集中的对象更为相似。
- 降维:维度降低意味着减少数据集的变量数量,同时确保重要的信息仍然传达。可以使用特征提取方法和特征选择方法来完成维度降低。特征选择选择原始变量的一个子集。特征提取执行从高维空间到低维空间的数据转换。例如:PCA算法是一种特征提取方法。
最常用的无监督机器学习算法有:
- k均值聚类(k-means clustering algorithm)
- 层次聚类
- DBSCAN
- 凝聚聚类
- 主成分分析(PCA,Principal Component Analysis)
- t-SNE(t-分布领域嵌入算法)
3.强化学习:
强化学习是带有激励机制的,具体来说,如果机器行动正确,给与一定的“正激励”;如果行动错误,同样会给出一个惩罚(也可以称为“负激励”)。因此在这种情况下,及其将会考虑如何在一个环境中行动才能达到吉利的最大化,具有一定的动态划分思想
最常用的强化学习算法包括:
- Q-Learning
- 瞬时差分(Temporal Difference,TD)
- 蒙特卡洛树搜索(Monte-Carlo Tree Search,MCTS)
- Asynchronous Actor-Critic Agents (A3C)
总结如下表:
机器学习 | 常用算法 |
有监督学习 | K最近邻 |
(回归与分类) | 线性回归 |
逻辑回归 | |
决策树 | |
随机森林 | |
支持向量机 | |
神经网络 | |
朴素贝叶斯 | |
无监督学习 | k均值聚类 |
(聚类与降维) | 层次聚类 |
DBSCAN | |
凝聚聚类 | |
主成分分析 | |
t-分布领域嵌入算法 |