1.2 处理类别型特征(序号编码、独热编码、二进制编码)

时间:2024-03-02 21:40:13

对于类别取值较多的情况下使用独热编码需要注意以下问题。

(1) 使用稀疏向量来节省空间。

在独热编码下,特征向量只有某一维取值为1,其他位置取值均为0。因此可以利用向量的稀疏表示有效地节省空间,并且目前大部分的算法均接受稀疏向量形式的输入。

(2) 配合特征选择来降低维度。

高维度特征会带来几方面的问题。一是在K近邻算法中,高维空间下两点之间的距离很难得到有效的衡量;二是在逻辑回归模型中,参数的数量会随着维度的增高而增加,容易引起过拟合问题;三是通常只有部分维度是对分类、预测有帮助,因此可以考虑配合特征选择来降低维度。