文件名称:网页相似性算法的研究与实现
文件大小:1.04MB
文件格式:KDH
更新时间:2013-10-17 04:50:44
网页相似性
吉林大学一个张同学的硕士论文。 对于网页首先用过滤净化算法得到网页的主要内容再进行特征选取,选出有代表性的文本块,并对每个文本块采用指纹算法计算它们的指纹,那么每个文档就可以用一组指纹来代表,这样就可以通过两个文档所具有相同指纹的数量来判断他们是否是相似的。在检测相似文档时还可以一对多或多对多同时进行检测。相对于其它的一些方法,我们的方法更适用于相似网页的检测。