Spark-terasort:Spark Terasort基准测试

时间:2024-06-01 20:16:23
【文件属性】:

文件名称:Spark-terasort:Spark Terasort基准测试

文件大小:24KB

文件格式:ZIP

更新时间:2024-06-01 20:16:23

Java

Spark-Terasort TeraSort是一种流行的基准测试,用于衡量在给定群集上对1 TB随机分布的数据(或所需的任何其他数据量)进行排序的时间。 它最初是用来测量Apache:trade_mark:Hadoop:registered:集群的MapReduce性能的。 在此项目中,代码将在Scala中重写,以测量Spark集群的性能。 它是对Hadoop集群的存储层(HDFS)和计算层(YARN / Spark)进行组合测试的基准。 完整的TeraSort基准测试运行包含以下三个步骤: 通过TeraGen生成输入数据。 在输入数据上运行实际的TeraSort。 通过TeraValidate验证排序的输出数据。 您无需在每次TeraSort运行之前重新生成输入数据(步骤2)。 因此,如果对生成的数据感到满意,则可以跳过第1步(TeraGen),以便以后的TeraSort运行。 包装方式 $ sbt assembly


【文件预览】:
Spark-terasort-master
----.gitignore(405B)
----project()
--------plugins.sbt(534B)
--------build.properties(128B)
--------Dependencies.scala(931B)
--------ProjectBuild.scala(771B)
--------BuildSettings.scala(2KB)
----src()
--------main()
----README.md(3KB)
----build.sbt(73B)

网友评论