基于本体语义的定题爬虫 (2006年)

时间:2024-05-30 21:32:33
【文件属性】:

文件名称:基于本体语义的定题爬虫 (2006年)

文件大小:1.05MB

文件格式:PDF

更新时间:2024-05-30 21:32:33

自然科学 论文

定题爬虫能迅速获取网络上特定主题的大量信息,对专业搜索引擎及数据挖掘应用都具有重大价值。针对目前通用的基于关键词主题过滤策略的不足,在概念聚集思想启发下,提出了基于本体语义的主题过滤策略。同时根据网页具有不同位置不同信息重要性的特点,提出了改进的加权特征项权值计算公式,实现基于语义的网页实时过滤。为进一步提高爬虫的工作效率提出链接相关度预测算法。对比实验表明此策略具有可行性。


网友评论