论文研究-基于词频差异特征选取的Context Graph算法改进.pdf

时间:2022-09-26 21:57:06
【文件属性】:

文件名称:论文研究-基于词频差异特征选取的Context Graph算法改进.pdf

文件大小:545KB

文件格式:PDF

更新时间:2022-09-26 21:57:06

论文研究

为了解决传统主题爬虫效率偏低的问题,在分析了启发式网络爬虫搜索算法Context Graph的基础上,提出了一种改进的Context Graph爬虫搜索策略。该策略利用基于词频差异的特征选取方法和改进后的TF-IDF公式对原算法进行了改进,综合考虑了网页不同部分的文本信息对特征选取的影响,及特征词的类间权重和类中权重,以提高特征选取和评价的质量。实验结果表明,与既定传统方法进行实验对照,改进后的策略效率更高。


网友评论