文件名称:worldwindjava源码-chimpmark:ChimpMARK-2010是海量现实世界数据集、有趣的现实世界问题以及解决它们的简单示例
文件大小:129KB
文件格式:ZIP
更新时间:2024-06-25 16:35:28
系统开源
世界风java源码ChimpMARK-2010:真实世界数据集上的大数据基准 ChimpMARK-2010 是大量现实世界数据集、有趣的现实世界问题以及解决这些问题的简单示例代码的集合。 学习大数据处理,对集群进行基准测试,或在实施方面进行竞争! 为什么? 使用具有相似大小、形状和原子操作的任务的运行时来估计作业的运行时间。 使用已知数据和代码,您可以对集群进行性能鉴定。 加入在 m1.large 实例的 10 台机器集群上运行应该多快? 了解应如何根据作业特征调整集群设置。 比较跨数据中心或硬件配置的等效标称功率(CPU、内核、内存)的集群:AWS 与 Rackspace 与私有集群,开始吧! 不同的核心技术(pig vs. wukong vs. raw Java)可以在运行时间、效率、优雅和代码大小方面进行竞争。 每个问题都旨在 a) 成为现实世界的任务,b) 尽管如此封装非常少的通用操作。 例如,*链接图上的邻接对 => 邻接列表实际上只是一个 GROUP,但特别是它是一个非常小的记录组,中位数为 ~5,最大数为数千,并且偏斜率低。 注意:这是一个计划文件:repo 不包含
【文件预览】:
chimpmark-master
----bin()
--------00_setup.sh(499B)
--------prepare()
--------elephantscat.rb(9KB)
--------wp_pagelinks-mount_and_copy.sh(399B)
--------fetch.sh(6KB)
--------fetch_daily_weather.sh(407B)
----data()
--------sample()
--------wp()
----Rakefile(2KB)
----timings()
--------infochimps()
----LICENSE(1KB)
----.document(60B)
----README-v2.md(4KB)
----spec()
--------spec.opts(8B)
--------chimpmark_spec.rb(203B)
--------spec_helper.rb(211B)
----.gitignore(180B)
----challenges()
--------text()
--------graph()
--------logs()
--------stats()
--------cat_wrangling()
----README.md(17KB)
----notes()
--------project_layout.md(3KB)
--------hadoop_tuning.md(16KB)
--------source_datasets.md(9KB)
--------design_notes.md(2KB)