【机器学习300问】14、什么是特征工程?-二、什么是特征工程?

时间:2024-01-22 10:22:36

        上面的这个表中有很多列,这些原本就在表中的列,我们叫他原始数据,或者叫他原始特征。特征工程其中的“工程”两个字就是说要对这个特征做写什么操作。那么做什么操作呢?做这些操作的目的是什么呢?如果搞懂了这两个问题,那么你就真正了解了什么是特征工程。

(1)特征工程要处理的数据常见的形式

  • 结构化数据,结构化数据类型可以看做关系型数据库的一张表(就像上面这张表),每一列都有很清晰的定义,包含了数值型、类别型两种基本类型。每一行数据表示一个样本信息。
  • 非结构化数据,非结构化数据主要包括文本、图像、音频、视频数据,其中包含的信息无法用一个简单的数值表示,也没有清晰的类别定义,并且每一条数据的大小各不相同。

(2)特征工程具体要做哪些操作

  1. 数据清洗:去除无效、缺失、重复的数据,处理异常值,填充缺失值等。

  2. 特征选择:确定哪些特征对模型预测目标变量最有价值,剔除冗余、无关或者噪声特征。

  3. 特征构造:基于领域知识或数据分析结果创建新的特征,例如在上面表中,我们只知道房屋的宽度和深度两个特征,但如果我想预测房屋的房价,那么面积 = 宽度 * 深度就更贴合我需要分析的问题。“面积”这个特征就是我构造出来的。

  4. 特征缩放:对特征进行归一化或标准化处理,确保不同尺度的特征在模型训练中具备可比性。

  5. 特征组合:将多个特征通过数学运算(如乘法、加法、逻辑运算等)组合成更高阶的特征。

(3)特征工程的目的是什么

        特征工程是从原始数据中提取、转换、构建具有代表性和预测能力的新特征的过程。特征工程的主要目的是提取出对预测模型有用的信息,这些信息以特征的形式表现出来。特征在机器学习模型中被用来预测或分类数据,因此它们必须包含足够的有用信息,以帮助模型做出准确的预测或分类。