基于支持向量机的搜索引擎垃圾网页检测研究 (2011年)

时间:2024-06-04 21:17:36
【文件属性】:

文件名称:基于支持向量机的搜索引擎垃圾网页检测研究 (2011年)

文件大小:767KB

文件格式:PDF

更新时间:2024-06-04 21:17:36

自然科学 论文

搜索引擎垃圾网页作弊的检测问题一般被视为一个二元分类问题,基于机器学习的分类 算法建立分类器,将网页分成正常网页和垃圾网页2类。现有的基于内容特征的垃圾网页检测模 型忽略了网页之间的链接关系,故构建了软间隔支持向量机分类器,以网页的内容特征作为支持 向量,根据网页之间的链接具有相似性的特点定义了惩罚函数,使用样本集学习,得出了线性支 持向量机网页分类器,并对分类器的分类效果进行了测试。实验结果表明基于支持向量机的分类 器的效果明显好于使用内容特征构建的决策树分类器。


网友评论