类别型特征-一种ddos攻击检测方法下载

【文件属性】：

文件名称：类别型特征-一种ddos攻击检测方法

文件大小：1.89MB

文件格式：PDF

更新时间：2024-07-19 05:46:32

特征工程思维导图

第⼆二天（⼆二星）⼆二、类别型特征 1. 定义：类别特征主要是指性别（男、⼥女女）、⾎血型（A、AB、B、O）等只在有限选项内取值的特征。类别特征原始输⼊入：通常是字符串串型 2. 类别型特征是否需要处理理否：决策树等少数模型能直接处理理是：逻辑回归、SVM等模型，必须经过处理理转换成数值特征才能正确⼯工作 3. 知识点序号编码（Ordinal Encoding）独热编码（One-hot Encoding）⼆二进制编码（Binary Encoding） 4. 提问：在对数据进⾏行行预处理理时，应该怎样处理理类别型特征？ 5、分析与解答序号编码序号编码通常⽤用于处理理类别间具有⼤大⼩小关系的数据。例例⼦子：根据成绩，可以分为低、中、⾼高三档，并且存在“⾼高>中> 低“的排序关系。做法：序号编码会按照⼤大⼩小关系对类别型特征赋予⼀一个数值ID；例例如，⾼高=3，中=2，低=1，转换后依然保留留了了⼤大⼩小关系。独热编码通常⽤用于处理理类别间不不具有⼤大⼩小关系的特征。举例例：⾎血型（A、B、AB、O型⾎血）。独热编码会将⾎血型变成⼀一个4维稀疏向量量（根据类别特征的数量量决定维度）。做法：A(1,0,0,0)、B(0,1,0,0)、 AB(0,0,1,0)、O(0,0,0,1) ##对于类别取值较多的情况，需要注意的问题 1. 使⽤用稀疏向量量来节省空间因为在独热编码下，特征向量量只有某⼀一维度取值为1，其余均为 0。所以可以利利⽤用向量量的稀疏表示有效地节省空间，并且⽬目前⼤大部分的算法均接受稀疏向量量形式的输⼊入。 2. 配合特征选择来降低维度⾼高维度特征会带来的问题 1. 在K近邻算法中，⾼高维空间下亮点之间的距离很难得到有效的衡量量 2. 在逻辑回归模型中，参数的数量量会随着维度的增⾼高⼆二增加，容易易引起过拟合问题 3. 通常只有部分维度是对分类、预测有帮助，因此可以开绿配合特征来选择降低维度。⼆二进制编码第⼀一步：先⽤用序号编码给每个类赋予⼀一个类别ID 第⼆二步：将类别ID对应的⼆二进制编码作为结果以⾎血型为例例⼦子（⼆二进制编码和独热编码的区别）通过看⼆二进制编码表格：本质是利利⽤用⼆二进制对ID进⾏行行哈希映射，最终得到0/1特征向量量，且维数少于独热编码，节省了了存储空间。补充：其他编码⽅方法 Helmert Contrast Sum Contrast Polynomial Contrast Backward Difference Contrast 第四天（两星） 1. 知识点：组合特征 2. 场景描述：虽然，在第三天的内容中，介绍了了如何利利⽤用降维⽅方法来减少两个⾼高维度特征组合后需要学习的参数。在实际问题中，需要⾯面对多种⾼高维度特征。⽽而且会遇到以下问题 1. 简单的两两组合会存在参数过多、过拟合等问题 2. 不不是所有的特征组合都是有意义的 3. 提问：需要⼀一种有效的⽅方法来找到应该对哪些特征进⾏行行组合 4. 有效⽅方法基于决策树的特征组合寻找⽅方法例例⼦子

立即下载

秒客网

类别型特征-一种ddos攻击检测方法

网友评论

相关文章