文档特征选择-coffee break python下载

【文件属性】：

文件名称：文档特征选择-coffee break python

文件大小：6.69MB

文件格式：PDF

更新时间：2024-07-16 23:57:45

深圳杯数学建模

（1）剔除停用词停用词是指在文档中大量出现，但对表征文档特征几乎无用的词语，例如汉语中的“我”、“怎样”、“它”、“最终”等，这些词语在文档中出现的频率很高，但只是起到了搭建文档句子结构的作用，对文档具体特征的表述却不起任何作用，反而会影响文档特征的提取。所以在中文分词后，需要剔除掉这些网页停用词，这样不但可以大大降低网页向量的维度，还可以提高网页关键词的密度。而副除停用词首先要构建停用词表，停用词表主要包括文档中常用的副词、连词、语气词等。（2）文档特征选择剔除网页停用词后，一定程度上降低了网页向量的维度，但还远远达不到现实中对网页向量维度的要求，所以还要选择适当的方法剔除噪音词语，进而达到对网页向量降维的目的。一般降低向量维度都遵循一个原则，留下代表文档特征的词语。而选择文档特征词的方法有很多，例如互信息、信息增益等，其中比较经典的一种方法是算法。具体算法思想是：在一个文档的集合 U中，包含了 N 篇文档，其中文档可用 d1,d2,d3,dN表示，在一篇文档中又包含了很多个词，这些词可用 T1,T2,T3,Tn表示。对于文档 dj中的词语 ti，tfij表示词语丨在文档 dj中出现的频率；idfi表示在文档集合中，总文档数与包含词语 ti的文档数比值的对数；而 tfidfij示词语在文档 dj中的权重值。文档中词语值 tf的计算方法见上式一，其中 ni代表词语在文档 dj中出现的次数，Nt代表文档 dj中包含的词语总数，而两者的比值即为词语 ti在文档中出现的频率，tf值越高代表这个词语在文档中的重要性越大，反之亦然。文档中词语 idf值的计算方法见上式二。其中 N代表文档集合中文档的总数，Nw代表文档集合 U中包含词语 ti的文档篇数，两者比值的对数值即为词语的 idf值，其中 idf 值越大，代表含有这个词语的文档数越少，词语特征性越强，即词语在文档中的重要性越大，反之亦然。而 tfidf值的计算方法见下式： tfidfij=tfij×idfi

立即下载

秒客网

文档特征选择-coffee break python

网友评论

相关文章