主题网络爬虫

时间:2021-09-06 17:59:11
【文件属性】:
文件名称:主题网络爬虫
文件大小:35KB
文件格式:ZIP
更新时间:2021-09-06 17:59:11
主题爬虫 毕业设计 网络爬虫是一种能够自动采集互联网信息的程序。网络爬虫不但能够作为搜索引擎的采集器,而且可以用于特定信息的采集,根据某些特定的要求采集网站中的信息,如就业,租房信息等。本文设计并实现了一种基于主题的网络爬虫程序。网络爬虫采用何种搜索策略和如何评价当前页面的主题相关度是基于主题的网络爬虫需要解决的关键问题。本文设计的网络爬虫采用广度优先搜索,对url进行解析、去重等。并应用Java多线程,使爬虫在抓取网页的过程中更有效率。通常评价页面相关度是采用基于内容评价的搜索策略,本文实现了三个常用的相关度评价算法分别是基于网页内容的相关度算法、基于网页内容和标题的相关度算法、基于网页内容和链接结构的相关度算法。
【文件预览】:
theme
----.project(381B)
----src()
--------theme()
----.settings()
--------org.eclipse.jdt.core.prefs(598B)
----.classpath(858B)
----bin()
--------theme()
----result(0B)

网友评论

  • 最近在做毕设,发现这个小程序是这个文档的项目https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&dbname=CJFD2014&filename=WJFZ201408023&v=SkZUeZhR5iMGOkHKKzPVyaMIl1%25mmd2BkYb%25mmd2BnRwfguHQdygpOpJhtJ%25mmd2BNhEVJYs2oKhOgR。项目采用JDK1.7,作者自己手动实现了上述内容,由于本人水平有限,没有运行起来。
  • 还以为是带文档的,结果就是个小程序