特征集的缩减-文本挖掘PPT

时间:2024-05-15 19:45:06
【文件属性】:

文件名称:特征集的缩减-文本挖掘PPT

文件大小:406KB

文件格式:PPT

更新时间:2024-05-15 19:45:06

文本挖掘

特征集的缩减 潜在语义标引(latent semantic indexing)方法 利用矩阵理论中的“奇异值分解(singular value decomposition,SVD)”技术,将词频矩阵转化为奇异矩阵(K×K) 潜在语义标引方法基本步骤: 1.建立词频矩阵,frequency matrix 2.计算frequency matrix的奇异值分解 分解frequency matrix成3个矩阵U,S,V。U和V是正交矩阵(UTU=I),S是奇异值的对角矩阵(K×K) 3.对于每一个文档 d,用排除了SVD中消除后的词的新的向量替换原有的向量 4.保存所有向量集合,用高级多维索引技术为其创建索引 5.用转换后的文档向量进行相似度计算


网友评论