文件名称:moca:能够使用javascript渲染页面的分布式搜寻器
文件大小:107KB
文件格式:ZIP
更新时间:2024-05-25 11:49:40
Scala
摩卡 Moca是一种Web爬网程序,能够使用Javascript渲染页面。 它在实现,并在JVM上运行。 默认情况下,页面是使用JavaFX提供的基于的浏览器呈现的。 此外,它可以分布在多台机器中。 它是专门的,从某种意义上说,它将仅下载内容(不对其进行任何处理),并且可以将ID与给定的种子相关联。 也可以配置,对同一个分区的请求发送的频率不超过每5秒钟一次。 Moca还保证两个冲突的任务永远不会同时执行。 如果两个任务属于同一分区,则它们被认为是冲突的。 分区由PartitionSelector的实现来稳定,默认情况下是URL的主机。 因此,共享同一主机的URL将属于同一分区。 它仍处于非常早期的状态。 问题和变化有望发生。 词汇表 工作者:系统中负责实际下载内容的实体。 单个机器/集群可以有多个运行中的工作程序实例。 主人:一个单例实体,负责组织特定机器/集群的工人将要做什么;
【文件预览】:
moca-master
----sbt(19KB)
----src()
--------test()
--------main()
--------it()
----build.sbt(2KB)
----.gitignore(118B)
----project()
--------assembly.sbt(57B)
--------dependency-graph.sbt(68B)
--------buildinfo.sbt(57B)
----README.md(14KB)