文件名称:基于遗传算法的聚焦爬虫搜索策略 (2010年)
文件大小:502KB
文件格式:PDF
更新时间:2024-06-15 05:00:35
工程技术 论文
为了提高聚焦爬虫的搜索效率,提出一种结合内容评价和链接结构搜索策略的优点并利用小生境遗传算法进行全局寻优的搜索策略。改进遗传算子和小生境遗传算法,将待搜索的网页URL作为遗传个体,采用概率变迁规则和小生境淘汰运算引导搜索方向。实验结果证明,与聚焦爬虫的其他实现技术相比,该策略在抓取主题相关网页时具有更高的查准率和查全率。
文件名称:基于遗传算法的聚焦爬虫搜索策略 (2010年)
文件大小:502KB
文件格式:PDF
更新时间:2024-06-15 05:00:35
工程技术 论文
为了提高聚焦爬虫的搜索效率,提出一种结合内容评价和链接结构搜索策略的优点并利用小生境遗传算法进行全局寻优的搜索策略。改进遗传算子和小生境遗传算法,将待搜索的网页URL作为遗传个体,采用概率变迁规则和小生境淘汰运算引导搜索方向。实验结果证明,与聚焦爬虫的其他实现技术相比,该策略在抓取主题相关网页时具有更高的查准率和查全率。