文件名称:文档特征选择-coffee break python
文件大小:6.69MB
文件格式:PDF
更新时间:2024-07-16 23:57:45
深圳杯 数学建模
(1)剔除停用词 停用词是指在文档中大量出现,但对表征文档特征几乎无用的词语,例如汉 语中的“我”、“怎样”、“它”、“最终”等,这些词语在文档中出现的频率很高,但只是起 到了搭建文档句子结构的作用,对文档具体特征的表述却不起任何作用,反而会 影响文档特征的提取。所以在中文分词后,需要剔除掉这些网页停用词,这样不 但可以大大降低网页向量的维度,还可以提高网页关键词的密度。而副除停用词 首先要构建停用词表,停用词表主要包括文档中常用的副词、连词、语气词等。 (2)文档特征选择 剔除网页停用词后,一定程度上降低了网页向量的维度,但还远远达不到现 实中对网页向量维度的要求,所以还要选择适当的方法剔除噪音词语,进而达到 对网页向量降维的目的。一般降低向量维度都遵循一个原则,留下代表文档特征 的词语。而选择文档特征词的方法有很多,例如互信息、信息增益等,其中比较 经典的一种方法是算法。具体算法思想是:在一个文档的集合 U中,包含了 N 篇文档,其中文档可用 d1,d2,d3,dN表示,在一篇文档中又包含了很多个词,这 些词可用 T1,T2,T3,Tn表示。对于文档 dj中的词语 ti,tfij表示词语丨在文档 dj中 出现的频率;idfi表示在文档集合中,总文档数与包含词语 ti的文档数比值的对 数;而 tfidfij示词语在文档 dj中的权重值。 文档中词语值 tf的计算方法见上式一,其中 ni代表词语在文档 dj中出现的 次数,Nt代表文档 dj中包含的词语总数,而两者的比值即为词语 ti在文档中出现 的频率,tf值越高代表这个词语在文档中的重要性越大,反之亦然。文档中词语 idf值的计算方法见上式二。其中 N代表文档集合中文档的总数,Nw代表文档集 合 U中包含词语 ti的文档篇数,两者比值的对数值即为词语的 idf值,其中 idf 值越大,代表含有这个词语的文档数越少,词语特征性越强,即词语在文档中的 重要性越大,反之亦然。而 tfidf值的计算方法见下式: tfidfij=tfij×idfi