文件名称:论文研究-基于链接和内容的BLCT主题爬行算法研究.pdf
文件大小:619KB
文件格式:PDF
更新时间:2022-08-11 15:05:00
垂直搜索引擎,PageRank算法,主题爬行,链接相似度,内容相似度
为了高效地获取与主题相关的资源,就垂直搜索引擎展开了研究。首先,在现有的PageRank算法基础上,提出一种改进的PageRank算法来测量网页的链接相似度;其次,从单个网页考虑,利用每个网页的url、title和正文,给出基于内容的相似度的计算方法;最后结合内容相似度和链接相似度,提出了一种基于链接和内容的BLCT主题爬行算法。实验结果表明,该算法在平均收获率和目标召回率上有显著提高,爬行的网页主题相关性也提高了。