如丝般顺滑的2017阿里双11黑科技曝光

时间:2020-11-24 13:32:05

点击有惊喜


2017双11全球狂欢节,阿里再创奇迹,成交金额1682亿,交易峰值32.5万/秒,支付峰值25.6万/秒,数据库处理峰值4200万次/秒。

双11前夕,阿里巴巴集团CTO行癫就给阿里两万多位工程师下了一个很新鲜的KPI——“双11晚上,大家的主要任务是喝茶。”

如丝般顺滑的2017阿里双11黑科技曝光

能如此淡定喝茶的背后,除了无数阿里技术小二的才智与努力,还有很多阿里的黑科技支撑着这样世界超级工程。现在我们跟着阿里云云效一起来揭秘下有哪些基础设施黑科技?

如丝般顺滑的2017阿里双11黑科技曝光

蜻蜓——世界领先的大规模文件分发系统

黑科技指数:

解决痛点:大规模文件分发稳定性差、效率低、成本高的难题,解决大规模镜像分发的成功率、效率难题。

实践效果:平均每天上百万次下载,TB级数据分发。平均成功率99.9999%。全集团覆盖率90%以上。解决了跨机房,跨地域,跨国际的分发难题,可以全天候,全球范围内提供不间断的服务。支撑了双十一大规模快速建站。兼容Docker mirror协议,支持Docker,Pouch,Hyper。

产品推荐:蜻蜓即将在阿里云云效中开放对外,赋能更多阿里云企业用户,帮助企业解决跨积分、跨地域、跨国际的文件分发难题。


Sigma——阿里所有服务器像一台机器一样被管理

黑科技指数:

解决痛点:为了保证系统的在线交易服务顺利运转,最初几年,阿里都是在大促来临之前大量采购机器储备计算资源,双 11 之后资源大量闲置。是否能把计算任务与在线服务进行混合部署,在现有弹性资源基础上提升集群资源利用率,降低双 11 资源新增成本?

实践效果:2017年双 11,Sigma调度可以跨多个不同平台来分配双11所需资源,使双11IT成本降低50%;混部技术把服务器资源利用率提升30%,复用计算任务集群为双11节约大量服务器,全网Pouch化实现阿里在线服务全面容器化,内部达到百万级容器部署规模。基于资源弹性和混部技术的云化战略又一次为双 11 带来成本的降低,未来这样具有混部能力的混合云弹性能力将通过阿里云开放,让用户以更低的成本获得更强的计算能力,进而帮助整个社会提高资源效率。

混部技术详细解读:欢迎关注 云效(ali_yunxiao)微信号,回复 混部即可。

StarAgent——百万级运维通道

黑科技指数:

解决痛点:还记得哪些年我们半夜爬起来重启服务器的暗黑历史吗?如何保证百万量级主机管理能安全、稳定、高效,如丝般顺滑?

实践效果:StarAgent支持百万级规模服务器管控,通过基于消息的分布式架构改造,1秒可操作上万台服务器,系统具备多中心部署能力,单机房/单存储故障不影响业务,高危操作自动识别与拦截有效第保证系统安全。

产品推荐:智能运维产品将在 阿里云云效平台对外输出。


X-Cluster——阿里10年分布式数据库技术沉淀 

黑科技指数:

解决痛点:2014 双11随着业务高速的增长,同城主备 AliSQL 部署的方式已经无法满足阿里对可扩展的部署、国际化以及容灾方面的需求。“异地多活”成为了公司应用的新标准。“异地多活”也给底层的数据库提出了新的容灾要求。传统的 Master-Slave 架构下,主备如果不使用强同步模式就会存在数据丢失的可能,然而强同步下一旦有节点异常,则整体不可服务。

实践效果:X-Cluster是阿里巴巴自研的分布式数据库。2017年双11,X-Cluster服务于淘宝天猫核心交易系统,经受了零点压力峰值的考验,并且在数据质量得到保证的前提下,提供了高效稳定的跨单元数据同步服务。

X-Cluster技术详细解读:欢迎关注 云效(ali_yunxiao)微信号,回复 X-Cluster即可。

网络自愈技术

黑科技指数:

解决痛点:作为一名工程师,网络无疑是最最基础的,一旦出现其中一个方向的网络故障,就会影响成千上万甚至亿级用户的正常使用,如何保证网络稳定运行? 

实践效果:通过实时准确的故障发现和故障收敛能力,结合自动化恢复,2017年阿里巴巴网络已经具备自愈能力,全面保障双11全体业务的稳定运行。

点击有惊喜

如丝般顺滑的2017阿里双11黑科技曝光