基于本体语义的定题爬虫 (2006年)

时间:2021-05-11 03:45:53
【文件属性】:
文件名称:基于本体语义的定题爬虫 (2006年)
文件大小:1.05MB
文件格式:PDF
更新时间:2021-05-11 03:45:53
自然科学 论文 定题爬虫能迅速获取网络上特定主题的大量信息,对专业搜索引擎及数据挖掘应用都具有重大价值。针对目前通用的基于关键词主题过滤策略的不足,在概念聚集思想启发下,提出了基于本体语义的主题过滤策略。同时根据网页具有不同位置不同信息重要性的特点,提出了改进的加权特征项权值计算公式,实现基于语义的网页实时过滤。为进一步提高爬虫的工作效率提出链接相关度预测算法。对比实验表明此策略具有可行性。

网友评论