【文件属性】:
文件名称:类别型特征-一种ddos攻击检测方法
文件大小:1.89MB
文件格式:PDF
更新时间:2021-06-29 11:59:52
特征工程 思维导图
第⼆二天(⼆二星) ⼆二、类别型特征
1. 定义:
类别特征主要是指性别(男、
⼥女女)、⾎血型(A、AB、B、O)等
只在有限选项内取值的特征。
类别特征原始输⼊入:通常是字符
串串型
2. 类别型特征是否需要处理理
否:决策树等少数模型能直接处
理理
是:逻辑回归、SVM等模型,必
须经过处理理转换成数值特征才能
正确⼯工作
3. 知识点
序号编码(Ordinal Encoding)
独热编码(One-hot Encoding)
⼆二进制编码(Binary Encoding)
4. 提问:在对数据进⾏行行预处理理
时,应该怎样处理理类别型特征?
5、分析与解答
序号编码
序号编码通常⽤用于处理理类别间具
有⼤大⼩小关系的数据。
例例⼦子:根据成绩,可以分为低、
中、⾼高三档,并且存在“⾼高>中>
低“的排序关系。
做法:序号编码会按照⼤大⼩小关系
对类别型特征赋予⼀一个数值ID;
例例如,⾼高=3,中=2,低=1,转换
后依然保留留了了⼤大⼩小关系。
独热编码
通常⽤用于处理理类别间不不具有⼤大⼩小
关系的特征。
举例例:⾎血型(A、B、AB、O型
⾎血)。独热编码会将⾎血型变成⼀一
个4维稀疏向量量(根据类别特征
的数量量决定维度)。
做法:A(1,0,0,0)、B(0,1,0,0)、
AB(0,0,1,0)、O(0,0,0,1)
##对于类别取值较多的情况,需
要注意的问题
1. 使⽤用稀疏向量量来节省空间
因为在独热编码下,特征向量量只
有某⼀一维度取值为1,其余均为
0。所以可以利利⽤用向量量的稀疏表
示有效地节省空间,并且⽬目前⼤大
部分的算法均接受稀疏向量量形式
的输⼊入。
2. 配合特征选择来降低维度 ⾼高维度特征会带来的问题
1. 在K近邻算法中,⾼高维空间下
亮点之间的距离很难得到有效的
衡量量
2. 在逻辑回归模型中,参数的数
量量会随着维度的增⾼高⼆二增加,容
易易引起过拟合问题
3. 通常只有部分维度是对分类、
预测有帮助,因此可以开绿配合
特征来选择降低维度。
⼆二进制编码
第⼀一步:先⽤用序号编码给每个类
赋予⼀一个类别ID
第⼆二步:将类别ID对应的⼆二进制
编码作为结果
以⾎血型为例例⼦子(⼆二进制编码和独
热编码的区别)
通过看⼆二进制编码表格:本质是
利利⽤用⼆二进制对ID进⾏行行哈希映射,
最终得到0/1特征向量量,且维数少
于独热编码,节省了了存储空间。
补充:其他编码⽅方法
Helmert Contrast
Sum Contrast
Polynomial Contrast
Backward Difference Contrast
第四天(两星)
1. 知识点:组合特征
2. 场景描述:虽然,在第三天的
内容中,介绍了了如何利利⽤用降维⽅方
法来减少两个⾼高维度特征组合后
需要学习的参数。
在实际问题中,需要⾯面对多种⾼高
维度特征。⽽而且会遇到以下问题
1. 简单的两两组合会存在参数过
多、过拟合等问题
2. 不不是所有的特征组合都是有意
义的
3. 提问:需要⼀一种有效的⽅方法来
找到应该对哪些特征进⾏行行组合
4. 有效⽅方法 基于决策树的特征组合寻找⽅方法 例例⼦子