文件名称:KNN方法-vmware下安装macos 10.9最新版的方法mac os x server 10.6版本
文件大小:1.15MB
文件格式:PDF
更新时间:2024-06-23 11:39:13
基于支持向量机的文本分类方法研究
第3章文本分类方法对比研究 3.2 KNN方法 KNN方法”“““1”。”’3是最著名的模式识别统计学方法之一,已经有四十多年的历 史,很早就被用于文本分类研究,是一种基于实例的文本分类方法。对于一个测试 文本,计算它与训练样本集中每个文本的文本相似度,依文本相似度找出☆个最相似 的训练文本,然后在此基础上给每一个文本类打分,分值是女个训练文档中属于该类 的文本与测试文本之间的文档相似度之和,按分值进行排序,依分值指定测试文本 的类别。 如果使用类中全部样本点作为类的代表点,就称为最近邻法。它由cover和Hart 于1968年提出,是模式识别中重要的非参数方法。最近邻法计算待分类样本到所有 代表点的距离,将其归入距离最近的代表点所属的类别。为了克服最近邻法错判率 较高的缺陷,将最近邻推广到女近邻,它选取离待分类样本最近的尼个代表点,看这 女个代表点多数属于那一类,就把测试样本归于该类。也可以说,给定一个待分类的 测试文档,系统在训练集中查找最相似的.i}个最近邻的文档,并根据这些近邻的类别 所属情况来给该文档的候选类别评分。可以把近邻的文档和测试文档的相似度作为 近邻的文档所在类的类权重。如果这女个近邻中的部分文档属于同一个类,则该分类 中的每个近邻的类权重之和作为该类别和测试文档的相似度。通过对候选类评分的 排序,然后给出一个阂值,就可以判定测试文档的类别。 K洲中的决策规则可写作: _y(x,c』)=∑sfm@,一)y(z,q)一屯 (3.10) d E^W 其中J,(一,C,)∈{o,1}表示文档一是否属于类c,(y=1时是,y=O时否);s砌(工,d,)表 示测试文档x和训练文档d,的相似度;6,则是决策的阈值。为方便起见,两个文档 的相似度我们采用两个向量的夹角余弦表示: o 己Ⅵ。‰ —=』型======== J(喜以)(喜以) (3.11) 其中:x为新文本的特征向量,d.为训练集中文本的向量,m为特征向量的维数 w;为向量的第七维。