一、机器学习思维导图
二、思维导图解释
需求分析与数据获取
- 在需求分析与数据获取中,我们往往要考虑以下几个方面:
- 确定模型目标
- 根据目标得到所需的相关因素?
- 特征的定义方式(比如,一周用户心情,是要取平均值还是方差呢)?
- 这些特征该是连续的还是离散的呢?
- 离散特征应该如何划分比较合理?
对于数据获取中,分析合适的特征划分方式是非常重要的,更多情况下,趋向划分为离散特征,因为在机器学习中,用于处理离散特征的效果远比处理连续特征的效果更好。
数据预处理
数据预处理大致分为6个部分:
- 直观分析
直观分析即通过作图的方式,分析特征的分布情况:最大值,最小值,局部峰值,置信区间,过零点,拐点,异常点等等。 - 数据清理
数据清理即处理一些不符常规的数据。常见的数据清理方法有:去重、错误纠正、格式标准化、异常值处理。其中,异常值处理又分为:缺失值填充,噪声数据处理,删除利群点等。 - 数据变换
数据变换即将数据变换为更有利于模型处理的数据。常见的数据变换有:特征二值化,特征归一化,连续特征变化,特征哑编码(如常见的one-hot编码)。 - 特征离散化
特征离散化即将连续特征离散到一个个区间,特征离散化能降低过拟合的风险,使模型更加稳定。常见的特征离散化方式有:无监督方法,有监督方法,基于独立性的离散化,基于精确度的离散化。其中,无监督方法又分为分箱法,直观划分法,基于聚类分析的离散化等,无监督方法易于实现,但同时它也可能会把属于同一类别的不同实例分到不同箱里。有监督方法分为1R离散化,基于卡方的离散化,基于熵增益的离散化,基于Gini增益的离散化等。 - 数据集成
- 正负样本均衡
常见的用于正负样本均衡的方法有欠采样,过抽样,算法调整,其中算法调整又分为权重调整和集成学习。
未处理特征通常存在几种常见问题:
问题 | 处理方法 |
---|---|
信息冗余(例如,学习成绩特征,如果目标是是否及格,那么则只需要将其进行二值化就好,不需要知道具体的分数) | 二值化 |
定性特征不能直接使用 | 定性特征哑编码 |
存在缺失值 | 缺失值填充 |
信息利用率低 | 数据变换 |
不属于同一量纲(特征规格不一样) | 无纲量化 |
特征工程
特征过程的目的是为了获得更好的训练数据。数据与特征决定了机器学习的上限,而模型和算法则是逼近这个上限。特征工程又分为特征抽取、特征选择和特征组合。
- 特征抽取主要是通过属性之间的关系,如组合不同的属性得到新的属性,这样就改变了原来的特征空间。
- 特征选择是从特征集合中挑选出一组最具统计意义的特征子集,从而达到降低维度的效果
- 特征组合通常是“基本特征+组合特征”兼顾了全局和个性化,对于线性学习器,特征组合可以很好地扩展大量数据,对于大规模数据集使用特征组合是学习高度复杂模型的一种有效策略。
算法模型
常用的算法模型有:逻辑回归、决策树、支持向量机、贝叶斯分类器、聚类算法、半监督学习、集成学习(Boosting、Bagging、随机森林)、概率图模型、规则学习、强化学习等。
模型评估
进行模型评估的常见参数有:准确率、召回率、F-score、AUC、ROC、KS、support、MAE、MSE、RMSE、R2等。
三、机器学习中的某些概念
- 定量特征也叫做连续特征,定性特征也叫做离散特征。