类别型特征-一种ddos攻击检测方法

时间:2024-07-19 05:46:32
【文件属性】:

文件名称:类别型特征-一种ddos攻击检测方法

文件大小:1.89MB

文件格式:PDF

更新时间:2024-07-19 05:46:32

特征工程 思维导图

第⼆二天(⼆二星) ⼆二、类别型特征 1. 定义: 类别特征主要是指性别(男、 ⼥女女)、⾎血型(A、AB、B、O)等 只在有限选项内取值的特征。 类别特征原始输⼊入:通常是字符 串串型 2. 类别型特征是否需要处理理 否:决策树等少数模型能直接处 理理 是:逻辑回归、SVM等模型,必 须经过处理理转换成数值特征才能 正确⼯工作 3. 知识点 序号编码(Ordinal Encoding) 独热编码(One-hot Encoding) ⼆二进制编码(Binary Encoding) 4. 提问:在对数据进⾏行行预处理理 时,应该怎样处理理类别型特征? 5、分析与解答 序号编码 序号编码通常⽤用于处理理类别间具 有⼤大⼩小关系的数据。 例例⼦子:根据成绩,可以分为低、 中、⾼高三档,并且存在“⾼高>中> 低“的排序关系。 做法:序号编码会按照⼤大⼩小关系 对类别型特征赋予⼀一个数值ID; 例例如,⾼高=3,中=2,低=1,转换 后依然保留留了了⼤大⼩小关系。 独热编码 通常⽤用于处理理类别间不不具有⼤大⼩小 关系的特征。 举例例:⾎血型(A、B、AB、O型 ⾎血)。独热编码会将⾎血型变成⼀一 个4维稀疏向量量(根据类别特征 的数量量决定维度)。 做法:A(1,0,0,0)、B(0,1,0,0)、 AB(0,0,1,0)、O(0,0,0,1) ##对于类别取值较多的情况,需 要注意的问题 1. 使⽤用稀疏向量量来节省空间 因为在独热编码下,特征向量量只 有某⼀一维度取值为1,其余均为 0。所以可以利利⽤用向量量的稀疏表 示有效地节省空间,并且⽬目前⼤大 部分的算法均接受稀疏向量量形式 的输⼊入。 2. 配合特征选择来降低维度 ⾼高维度特征会带来的问题 1. 在K近邻算法中,⾼高维空间下 亮点之间的距离很难得到有效的 衡量量 2. 在逻辑回归模型中,参数的数 量量会随着维度的增⾼高⼆二增加,容 易易引起过拟合问题 3. 通常只有部分维度是对分类、 预测有帮助,因此可以开绿配合 特征来选择降低维度。 ⼆二进制编码 第⼀一步:先⽤用序号编码给每个类 赋予⼀一个类别ID 第⼆二步:将类别ID对应的⼆二进制 编码作为结果 以⾎血型为例例⼦子(⼆二进制编码和独 热编码的区别) 通过看⼆二进制编码表格:本质是 利利⽤用⼆二进制对ID进⾏行行哈希映射, 最终得到0/1特征向量量,且维数少 于独热编码,节省了了存储空间。 补充:其他编码⽅方法 Helmert Contrast Sum Contrast Polynomial Contrast Backward Difference Contrast 第四天(两星) 1. 知识点:组合特征 2. 场景描述:虽然,在第三天的 内容中,介绍了了如何利利⽤用降维⽅方 法来减少两个⾼高维度特征组合后 需要学习的参数。 在实际问题中,需要⾯面对多种⾼高 维度特征。⽽而且会遇到以下问题 1. 简单的两两组合会存在参数过 多、过拟合等问题 2. 不不是所有的特征组合都是有意 义的 3. 提问:需要⼀一种有效的⽅方法来 找到应该对哪些特征进⾏行行组合 4. 有效⽅方法 基于决策树的特征组合寻找⽅方法 例例⼦子


网友评论