如何实现云时代的高效运维?

时间:2021-03-24 21:51:16

云计算经过几年的飞速发展,已经成为IT领域未来重要的趋势之一。云时代IT领域各种问题,都在逐渐通过整个行业的智慧形成统一的解决方案。也正因如此,唱衰运维的调调一直不绝于耳。当代表运维价值的苦力活被程序代替,甚至比人做得更好时,运维人员该去向何方?

 
在WOT2016 互联网运维与开发者大会现场,腾讯社交网络运营部助理总经理、技术运营通道会长赵建春作为一个有着十年经验的运维老兵,分享了他眼里运维的分工和理念有变化,如何实现云时代的高效运维?企业未来还是否需要专业的运维管理团队呢?

 
腾讯社区网络运维团队主要负责以QQ延伸出来的各种社群的运维和维护,包括QQ空间、QQ音乐、QQ会员、QQ秀等一系列的QQ产品。整个团队成员不到90人,却维护着将近10万台服务器。在经历了多次重大事件及活动的考验和洗礼后,赵建春深刻感受到,运维团队最最重要的职责就是保证系统的稳定、可靠,而不是做一名救火队员。在可靠这件事解决之后,上才有更多时间提升整个运维工作的效率。

 
高效运维的两大理念

 
谈到高效运维,赵建春最喜欢拿建筑行业做对比。在他看来,建筑行业是人类历史上一直存在的一项工作。发展到今天,搭建一个高楼就像搭积木一样,能在短时间内迅速完成。这个过程实际做了大量的细分工作,每一个团队都会把自己负责的,自己擅长的工作做到极致,做到最高效,最终交由设计师设计,拼装起来就完成了。这对于运维领域也是一个很好的启发。

 
专业领域细分

 
赵建春所在的团队对接入运维、逻辑运维、存储运维和业务运维的工作职责进行了明确的划分。在接入运维、逻辑运维和存储运维层面,通过专业的分式方式让团队每位成员都聚焦到更加细分的技术领域,把相应的工作做到更精更细更深。对于业务运维这部分,则是用一些对业务理解能力较好,协调能力较强的同事去对业务进行一些支撑及更多的沟通,更加专注于一些大的目标实现的事情,同时做一些优化的工作。

 
减少运维对象

 
具体到运维管理层面,赵建春一直强调的一个重要理念就是减少运维对象。运维其实管理挺复杂的一块事情,一定要对内容和分析做一个清晰的边界划分,有一个比较好的分类,分类以后把每一类东西进行标准化建设和改造。具体来说,就是把服务器类型、机房数量、QA流程、容错架构、软件架构等都看成是抽象的、需要运维去管理的“对象”,对象越少,运维人员就越能深入和全面地掌握这些对象。这种寻找、合并同类项的过程,也是专业细分的一种手段。只有以上两点作为基础,才能谈到实现高效运维。

 
大规模海量服务运维实践

 
赵建春讲到,维护海量服务时,出现的故障必须得到服务器及时的处理,不能影响项目服务。容错方案就成为决定系统运维成败的第一步。我们写出来的程序和代码、运行的实例都是运维团队需要管理的资源。那么我们能不能对每个资源都定义一种形状,然后进行搭建?

 
1、统一框架CMDBA

 
将某一业务模块上所有依赖的资源全部登记进该统一框架。通过高效的监控手段、容量管理等方式进行快速决策和调度。

 
2、L5系统

集容错、负载均衡、路由、灰度监控能力于一身的容错方案。 L5系统类似于DNS,底下有一排能提供的服务模块,通过L5和DNS、L5和Agent两个环节解决单点问题,并达到容错和负载均衡的作用。

 
3、统一框架和架构

 
将整个网络通讯列成一个标准框架, 业务逻辑部分以SO动态库方式编写,与框架分离部署,类似WEB服务器上的CGI。接入层用QZHTTP,逻辑层是SPP和SF的框架。框架的统一大大减少了运维成员学习的成本。实现了统一维护,极大提高通讯效率。

 
4、动态资源管理

 
腾讯在十多年的发展过程中积累了很多应对海量方面的成熟经验。其中就包括腾讯云的CDN。腾讯有十亿以上的用户,遍布在全国各地,为了让所有的用户访问资源更加快和近,腾讯将其做了超过500个节点,部署在离用户最近的点上,把资源分发到离用户近的地方。当出现访问压力时,腾讯云可以通过对用户就近接入的物流策略进行动态的调度,让用户访问就近的节点减少压力。资源在分发时也会进行一个预先的推送,或者预拉取,防止在访问的时候出现集中式的拉取资源的方式。

 
另外,腾讯云在全国上海、天津、深圳部署有QQ整体后台的接入点,可以让用户进行跨地域的分布,从而解决高并发访问时的资源调度问题。

 
第三,腾讯云会对访问的整个链路进行分析,防止每次大的访问量从前到后穿到整个链条上,而是会访问到局部的模块,来解决这些问题。

 
未来小公司的专业运维将逐渐消失

 
最后赵建春谈到,云计算会变成未来的超级标准。从另外一个角度说,云计算就是IT产业的运维平台,无论是传统行业、创业者还是互联网公司,都会在这个平台上进行整个业务的运作,而不是把精力消耗在在基础设施的维护和管理上。

 
像腾讯云服务经过过去几年发展,尤其是去年表现出翻倍式增长,在全球已有50家数据中心,提供500家数据加速节点,超过10T整体带宽,4T防DDOS攻击能力,700万+域名提供解析等公有云服务。近期,腾讯云也发布了新的战略,推出“黑石”新品并公布出海计划,不断演进解决方案,提高服务能力。

 
所以对于小型公司来说,可能专业的运维将会慢慢消失,开发的人直接使用云计算的服务运维。而对于那些规模比较大的公司,租用的服务器比较多,涉及到一些混合云的方案,还是需要一定的管理人员,但是需求量不会像原来那么大。

 
未来是全面拥抱云的时代,对于运维人员来说,一定要建立学习云和使用云的意识,去主动拥抱云,适应云时代的运维需求。