文件名称:论文研究-网络蜘蛛在网络论坛领域的研究与设计.pdf
文件大小:676KB
文件格式:PDF
更新时间:2022-08-11 15:04:59
网络蜘蛛,文档对象模型树,页面重复区域,爬行策略,重复模板
为了提高网络蜘蛛在爬行网络论坛时的爬行效率,从论坛布局结构特点出发,分析论坛所具有的普遍特征,设计了一个针对论坛的特殊的网络蜘蛛爬行策略。通过对大量论坛的布局结构分析发现,用户感兴趣的信息都使用设计者事先设计好的布局结构展现给用户。而这种布局结构可以通过DOM树体现出来,对DOM树进行操作,提取出URL,然后对重复的URL进行过滤。实验表明该爬行策略提高了网络蜘蛛爬行效率,节省网络带宽及本地存储空间。