大规模分布式压测

时间:2022-08-31 19:22:57

转自:阿里云性能测试页面

原文地址:https://help.aliyun.com/document_detail/pts/test-case/PTS-TC09-Large-scaleDistributedStressTesting.html?spm=5176.docpts/test-case/PTS-TC08-ProtalWebSites.6.141.cS2ZnN

1 背景

  需要临时扩容他们的机器来支持100W的QPS,每秒100W的请求,听起来还是挺恐怖的。什么概念呢,2013 年双12的大秒系统的峰值QPS也就在42万多。从这样的数据来看,这个客户的需求高的离谱。但是既然用户有这个需求,我们还是需要满足客户的期望。

2 问题及挑战

  遇到问题主要有:

  • 100万QPS
  • 被测系统如何搭建,需要多少台机器
  • 选择何种压测工具,百万级QPS考验,压力机需要多少台机器

  遇到的挑战主要有:

  • 项目实施的时间只有5天,压力非常大
  • 被测系统是否能承受如此大的压力
  • 压力机自身是否能经受如此大的压力,是否稳定
  • 短时间内如何快速部署被测系统及压力机环境
  • 性能瓶颈在哪(程序、OS/硬件、网络设备等)

3 解决方案及评估

  经过多次会议,确定解决方案是,采用阿里云环境自动化运维及弹性扩容来搭建环境,压测工具采用分布式压测。
  通过评估机器数量如下:

  • 被测系统环境:2台SLB,300台ECS(4核CPU 8G内存),批量部署应用
  • 压力机环境:300台ECS(4核CPU 8G内存),批量部署性能测试

  整个团队包括客户、SLB和ECS机器维护人员、环境部署人员以及性能测试团队充分密切配合。

4 目标

  QPS:100万,稳定运行1分钟左右。

5 典型业务

  秒杀活动,一个比较复杂的带Header, Body, Cookie 的http 请求。

6 测试结果

6.1 结果

    • QPS峰值最高达到71.5W,后端ECS CPU利用率最高75%,网络峰值流量达到25Gb。
    • QPS达到峰值后,逐渐下降,基本稳定在50万左右。能稳定运行4分钟左右。大规模分布式压测

6.2 分析

  QPS下降的原因经过各技术专家诊断一致认为是SLB丢包导致,SLB压力已到极限,因此建议需要配置3台SLB,每台SLB挂100台ECS,才有可能满足100万QPS 。

6.3 结论

  经过与客户会讨,峰值71.5万QPS,稳定运行4分钟50万QPS,能满足目前现在的业务需求。如果需要支持100万QPS,需要扩容SLB,至少是3台SLB以上。

7 总结

7.1 分布式压测

7.1.1 稳定性

  在测试过程中,性能测试经受住了大规模压力的考验,并且从未出现过异常问题,由此可知,性能测试产品非常稳定。

7.1.2 百万级QPS支持

  在测试的过程中,性能测试能支撑百万级QPS的压力发起,这是目前其他压测工具所不能支持的。

7.1.3 资源消耗少

  虽然性能测试压测机申请了300台ECS机器,但在测试过程中,消耗的机器资源非常少,CPU利用率不到0.1%,并且每台机器负载均衡,实际上100台ECS就足够了。

大规模分布式压测

7.2 环境搭建

  在调研阶段,性能测试团队就大规模压力发起进行了充分的调研,并且通过测试验证单台机器能发起的压力以及弹性扩容,预估出需要的机器数量,才能保证项目的顺利进行。

  另外阿里云批量自动化环境搭建节省了环境的部署时间,在1天内完成所有工作。

7.3 团队合作

  这次大规模压力压测在5天内顺利完成,离不开整个团队所有人员密切配合,重点关注,才能让如此大的项目在短时间内成功实施。因此团队合作在项目实施的过程中有起着举足轻重的作用。