文件名称:特征集的缩减-文本挖掘PPT
文件大小:406KB
文件格式:PPT
更新时间:2024-05-15 19:45:06
文本挖掘
特征集的缩减 潜在语义标引(latent semantic indexing)方法 利用矩阵理论中的“奇异值分解(singular value decomposition,SVD)”技术,将词频矩阵转化为奇异矩阵(K×K) 潜在语义标引方法基本步骤: 1.建立词频矩阵,frequency matrix 2.计算frequency matrix的奇异值分解 分解frequency matrix成3个矩阵U,S,V。U和V是正交矩阵(UTU=I),S是奇异值的对角矩阵(K×K) 3.对于每一个文档 d,用排除了SVD中消除后的词的新的向量替换原有的向量 4.保存所有向量集合,用高级多维索引技术为其创建索引 5.用转换后的文档向量进行相似度计算