hadoop 大数据性能测试,转内待使用

时间:2022-05-26 11:38:48
大数据性能测试一般常用的有以下几种:

1.TestDFSIO: 是一款hadoop自带的读写性能测试基准工具,主要通过mp的方式去做读写测试,网上有不少的示例,测试比较方便

2.Terasort: TeraSort是一款排序测试方法,分为数据产生、数据排序、数据校验3个阶段,可以通过time去比较耗时;hadoop有自带的terasort测试工具,网上也有不少示例;不过我推荐用spark去测试terasort,更为简单一些,可以参考: https://github.com/ehiggs/spark-terasort

3.另外也可以使用测试框架,我推荐用HiBench ( https://github.com/intel-hadoop/HiBench),里面包含了许多测试项,比如wordcount,也是可以作为性能参考的依据。