mySpider:爬虫(Mongodb)

时间:2024-06-02 22:36:44
【文件属性】:

文件名称:mySpider:爬虫(Mongodb)

文件大小:719KB

文件格式:ZIP

更新时间:2024-06-02 22:36:44

Java

spider-dist 分布式爬虫 搜索引擎设计和实现(附git源码) 简要说明 爬取网站,采用流程节点,用来处理摘要计算、关键字计算、相似度计算、热度计算,利用线程池启动多线程扫表的方式。数据经过流程计算以后,落库,搜索查询采用倒排索引原理实现快速搜索。 git地址: demo网址: 实现步骤 1.收集一些网址,作为爬/虫的入口。 种子url表结构: { “_id” : ObjectId(“5a9ec8965dc54c4352310b3c”), “urlId” : “io5636fba00146d784uiodf7e96bb9ij”, “url” : “, “deleteFlag” : “1”, “createTime” : “20170505120012”, “rootUrl” : “, “deep” : 1.0 } urlId为随机生成,url为种子url,deleteFlag:0表


网友评论