3.1 特征提取
特征提取是从原始数据中提取有用信息并转化为适合模型输入的过程。对于文本数据,常用的方法是将其转为词频矩阵,如TF-IDF(词频-逆文档频率)。TF-IDF能够反映一个词在文档中的重要程度,通过计算每个词在文档中的出现频率与在整个语料库中的逆文档频率的乘积,得到一个权重矩阵。
例如,在文本分类任务中,将新闻文章转换为TF-IDF矩阵,作为模型的输入特征。
3.2 特征组合
特征组合是通过将多个特征进行数学运算生成新的特征,以更好地描述数据的内在关系。特征组合可以增加模型的表达能力,提高预测准确性。
例如,在房地产数据中,将房屋的面积和单价相乘生成总价这一新特征,这可能比单独使用面积或单价更能反映房屋的价值。
3.2 特征降维
当数据的维度较高时,特征降维可以降低数据的复杂度并提高模型的效率。PCA(主成分分析)是一种常用的线性降维方法,它通过找到数据中方差最大的几个方向(主成分),将数据投影到这些方向上,从而实现降维。
例如,对于高维的图像数据,使用PCA可以将其降至二维,便于可视化和分析,同时保留数据的主要特征。