转自:阿里云性能测试页面
原文地址:https://help.aliyun.com/document_detail/pts/test-case/PTS-TC09-Large-scaleDistributedStressTesting.html?spm=5176.docpts/test-case/PTS-TC08-ProtalWebSites.6.141.cS2ZnN
1 背景
需要临时扩容他们的机器来支持100W的QPS,每秒100W的请求,听起来还是挺恐怖的。什么概念呢,2013 年双12的大秒系统的峰值QPS也就在42万多。从这样的数据来看,这个客户的需求高的离谱。但是既然用户有这个需求,我们还是需要满足客户的期望。
2 问题及挑战
遇到问题主要有:
- 100万QPS
- 被测系统如何搭建,需要多少台机器
- 选择何种压测工具,百万级QPS考验,压力机需要多少台机器
遇到的挑战主要有:
- 项目实施的时间只有5天,压力非常大
- 被测系统是否能承受如此大的压力
- 压力机自身是否能经受如此大的压力,是否稳定
- 短时间内如何快速部署被测系统及压力机环境
- 性能瓶颈在哪(程序、OS/硬件、网络设备等)
3 解决方案及评估
经过多次会议,确定解决方案是,采用阿里云环境自动化运维及弹性扩容来搭建环境,压测工具采用分布式压测。
通过评估机器数量如下:
- 被测系统环境:2台SLB,300台ECS(4核CPU 8G内存),批量部署应用
- 压力机环境:300台ECS(4核CPU 8G内存),批量部署性能测试
整个团队包括客户、SLB和ECS机器维护人员、环境部署人员以及性能测试团队充分密切配合。
4 目标
QPS:100万,稳定运行1分钟左右。
5 典型业务
秒杀活动,一个比较复杂的带Header, Body, Cookie 的http 请求。
6 测试结果
6.1 结果
-
- QPS峰值最高达到71.5W,后端ECS CPU利用率最高75%,网络峰值流量达到25Gb。
- QPS达到峰值后,逐渐下降,基本稳定在50万左右。能稳定运行4分钟左右。
6.2 分析
QPS下降的原因经过各技术专家诊断一致认为是SLB丢包导致,SLB压力已到极限,因此建议需要配置3台SLB,每台SLB挂100台ECS,才有可能满足100万QPS 。
6.3 结论
经过与客户会讨,峰值71.5万QPS,稳定运行4分钟50万QPS,能满足目前现在的业务需求。如果需要支持100万QPS,需要扩容SLB,至少是3台SLB以上。
7 总结
7.1 分布式压测
7.1.1 稳定性
在测试过程中,性能测试经受住了大规模压力的考验,并且从未出现过异常问题,由此可知,性能测试产品非常稳定。
7.1.2 百万级QPS支持
在测试的过程中,性能测试能支撑百万级QPS的压力发起,这是目前其他压测工具所不能支持的。
7.1.3 资源消耗少
虽然性能测试压测机申请了300台ECS机器,但在测试过程中,消耗的机器资源非常少,CPU利用率不到0.1%,并且每台机器负载均衡,实际上100台ECS就足够了。
7.2 环境搭建
在调研阶段,性能测试团队就大规模压力发起进行了充分的调研,并且通过测试验证单台机器能发起的压力以及弹性扩容,预估出需要的机器数量,才能保证项目的顺利进行。
另外阿里云批量自动化环境搭建节省了环境的部署时间,在1天内完成所有工作。
7.3 团队合作
这次大规模压力压测在5天内顺利完成,离不开整个团队所有人员密切配合,重点关注,才能让如此大的项目在短时间内成功实施。因此团队合作在项目实施的过程中有起着举足轻重的作用。