网页相似性算法的研究与实现

时间:2013-10-17 04:50:44
【文件属性】:

文件名称:网页相似性算法的研究与实现

文件大小:1.04MB

文件格式:KDH

更新时间:2013-10-17 04:50:44

网页相似性

吉林大学一个张同学的硕士论文。 对于网页首先用过滤净化算法得到网页的主要内容再进行特征选取,选出有代表性的文本块,并对每个文本块采用指纹算法计算它们的指纹,那么每个文档就可以用一组指纹来代表,这样就可以通过两个文档所具有相同指纹的数量来判断他们是否是相似的。在检测相似文档时还可以一对多或多对多同时进行检测。相对于其它的一些方法,我们的方法更适用于相似网页的检测。


网友评论

  • 正在做网页相似性 很有帮助!
  • 非常有帮助,相似性可以用来做很多东西
  • 嗯,觉得还是蛮又道理的,可以运用到网页分类中,利用相似性去做
  • 看看还是不错的 有帮助