文件名称:Akka-Web-Crawler:基于Akka Cluster的Web搜寻器的示例
文件大小:564KB
文件格式:ZIP
更新时间:2024-06-05 15:57:50
Java
Akka网络爬虫 用Java编写的基于Akka Cluster的Web搜寻器的示例: WEB爬网程序提供索引和搜索新闻网页的功能。 每个新闻站点都需要对Crawlable接口进行单独的实现。 该项目包含4个软件包: .actor:用于单个JVM进程的Actor .cluster:用于多个JVM进程(集群节点)的Actor .examples:用于actor系统的Java控制台应用程序 .model:业务模型类:解析器,索引器,搜索器,页面... 基于简单actor的网络爬虫: 单个JVM Web爬网程序进程由1个Master Actor组成,该Master Actor将索引和搜索请求路由到多个Crawler协调器。 每个爬网协调员Actor负责一个域爬网。 协调员监督多个爬网演员和一个调度程序。 抓取工具用于抓取新闻网页:文章标题,作者,发布日期和文章内容。 为了抓取,使用