承载IT运维的成功之梦:精准运维

时间:2021-07-26 03:19:50

已是一个星期的晚上没睡好了,梦里全是啪啪的声音乱作一气,一串串红绿指示灯交替闪烁,我搞不清是梦还是在机房,只觉得一晚都在忙乎,醒来已是一身冷汗,这是自从前一段时间老板命令7*24小时确保新业务稳定运行,经一周苦战后,总周期性做梦,挥之不去”,这是一个有四年工作经验的运维骨干,也是我书的读者,与我交流的心里话,他快崩溃了,总是浮现老板幽幽的眼神,鄙夷的神情暗示他新系统上线就会崩,你们这帮吃干饭的。是呀,生存在这样的环境里,这活还有没有办法干,有没有办法改变呢?

 

我们都知道,IT运维服务是对IT基础设施(网络系统、主机系统、存储/备份系统、终端系统、安全系统、机房动力及环境等)以及软件应用等进行服务的,一般情况,我们支持信息系统,信息系统支撑企业业务,而实际情况是,业务受各种因素影响,不断起伏变化,而没人及时告诉我们详情,只要求我们以不变应万变的方式维稳,而再牛的公司资源都是有限的,如果运维缺乏一个反馈,既不符合《控制论》的思想,也很难让运维做到有针对性,更不要说精准了,当然也别提运维的价值了。

那么,能不能在运维过程中引入业务需求这一变量,让运维更加精准,实现信息系统与业务的心跳同步呢?答案显然是肯定的。将业务需求和业务变化作为变量,主动将其反馈到运维过程中,让运维工作以业务需求为导向、以信息系统为对象,通过一系列措施实现信息系统与业务的心跳同步,促进业务效率、业务效益或用户体验的提升。我们将这种采取新兴技术提供预防性维护实现IT系统与业务精确匹配的运维方法统称为精准运维。

承载IT运维的成功之梦:精准运维

精准运维及其意义

1.什么是精准运维

大家都熟悉《三国演义》草船借箭的故事,诸葛亮的成功是有几个要素的:首先他熟悉业务,其次是及时交流发现业务薄弱环节和需求,主动提出服务方案,并以意想不到的方式完成。关键词熟悉业务、交流反馈、主动服务、执行实施。

精准运维是一种IT服务方法,它是要让IT运维服务工作围绕被服务对象的业务来展开,从而进行心跳同步式的服务,最大限度地利用资源,提升业务体验,实现服务价值,而不仅仅是围绕信息系统本身(软硬件)来服务。

因此,精准运维的理论体系架构本质上是以客户为导向的服务体系,是以业务的心跳为基准的服务思想理念,精准运维是通过一系列方法掌握服务对象所使用信息系统的特性、业务特点,以及该信息系统所服务的企业业务特性,找准目标,通过业务部门及时把用户的真实体验反馈给运维,这样,运维工作就能通过掌控信息系统运行风险、运行特点、资源调配情况和业务部门反馈的意见来优化信息系统,从而精准的展开服务的计划与预测服务要求,提供和建议使用较小的代价有效展开主动服务和快速响应服务做到信息系统与业务心跳同步。

因此,总结起来,精准运维的基础是熟悉被服务对象,知己知彼,并建立风控模型;精要素是主动服务与预测;影响精准运维的关键是业务;与精准运维密切相关的是业务所有者、信息系统、环境等;精准运维的行动离不开PDCA的方法。下面,我们可以看看精准运维的框架图:

承载IT运维的成功之梦:精准运维

精准运维的框架模型就犹如汽车的发动机,要求油门通过不断循环往复提供动力支撑。

 

从图上我们可以看到,上层对下层是要求,下层对上层是支撑,影响业务的变化主要有六因素;风控模型是精准运维的定海神针;与运维工作关系密切的是业务所有者、信息系统与环境;技术实力是运维工作的支撑;以业务目标为导向,业务所有者(操作人员、维护人员、管理人员等)以及环境在信息系统运行过程中所面临的作业风险、业务风险、政策风险、管理风险和安全风险,按照PDCA的方法进行风险评估、识别、规划、执行、回顾、改进等,从而保持信息系统与业务需求的精确匹配,达到心跳同步。

2.精准运维的特点与意义

(1)精准运维的特点

         精准运维有别于传统运维,概括起来,有以下五大特点:

n  以客户的业务为导向。

n  服务要与业务精准同步。

n  强调主动性、计划性的服务,由救火队变为预防与救火并举。

n  除了保障系统安全稳定可靠,更强调用户体验、效率和效益。

n  更重视服务价值的实现。

(2)精准运维的意义

1)使运维服务过程更重视用户体验,促进DevOps落地

精准运维在服务过程中引入了业务需求作为控制变量,并以此为导向开展运维,充分了解了用户业务诉求,并将用户体验作为最终目标,这使得运维服务过程更注重用户体验,摆脱了仅针对信息系统做文章的小格局,有利于开发(软件工程)、技术运营和质量保障(QA)之间的沟通、协作与整合,促进DevOps真正落地。

2)让运维服务的价值更得以突显,并由“天”来衡量转变为以其产生的价值来衡量

传统运维往往签订一个固定期限的运维协议,服务的价值一般体现在多少人天、多少人年,以时间作为标尺来衡量价值。而精准运维的目标是服务给客户带来多少价值并得到客户的认可,体现在精准运维不仅追求系统运行安全稳定可靠,更追求的用户体验、业务效率、业务效益等,这种价值观的转变,使服务的立意更高,目标更高、客户的体验更好,因而含金量也更高。换句话说,精准运维让运维服务从低端走向高端,可以走向按项目制、目标制来签订合作或服务要求。

3)增强了运维的主动性,使运维更加有计划性、条理性、预见性,工作不至于被动

很多时候,IT运维服务带给人的印象似乎只是停留在“救火队员”的角色之上。运维人员往往是等到故障已经出现或瓶颈已经产生,然后才采取应急处理措施予以恢复,这种运维方法虽然能最终排除故障,但无法规避对企业业务造成的损失。而精准运维主动关注业务需要、用户体验、系统运行动态和变化趋势,并采取措施识别人机环境方面的风险并主动采取措施消除,充分体现了运维的主动性、计划性、条理性和预见性,真正实现主动预防性运维、防患于未然,实现信息系统与业务的心跳同步。

4)实现资源优化配置、提升资源利用率

IT系统于业务应用来说,有可能资源不足,也有可能资源过剩,通过精准运维的方法,不仅能解决资源不足问题,还可有效应对资源过剩的局面,将“闲置”资源充分利用起来。打个比方说,一个营销系统每日的不超过万条记录的处理量,但当时设计时却购置了配置很高的服务器,当前的服务器性能只利用了不到10%。通过精准运维的分析与评估,完全可以在当前的营销系统服务器上部署虚拟机,作为其他信息系统的运行环境,企业无需再购置新的服务器,从而实现了资源的优化配置,提升资源利用率。

5)让运维更加向运营靠拢,成为运营的一部分

所谓运营,是指以网站为产品营销平台或产品本身,为开展网络营销而做的一系列工作总称。精准运维不同于传统运维,更为关注业务需求、用户体验,通过对运营过程中的大数据从业务角度进行精准分析,发现用户的需求与业务环节的关联关系,进而从应用软件的角度进行业务模式、流程的改进与调整,让业务更好满足用户需要,从而找到新的业务增长点或改进方向。从这个角度来说,精准运维让运维比历史上任何时候更接近运营,且已成为运营的一部分,能够为开展网络营销贡献巨大的价值。

精准运维可以怎么做

1.精准运维的初始化—建立风控模型

了解运维系统的业务特点,根据业务和系统运行情况与业务所有者一起着手建立风险模型。风险模型需要体现业务所有者(操作人员、维护人员、管理人员等)以及环境在信息系统运行过程中所面临的作业风险、业务风险、政策风险、管理风险和安全风险,这些数据来源于信息系统运行数据、历史运维数据、用户访谈信息及客户体验信息等。通过综合各方面信息,结合业务,从而建立风控模型,梳理出风险清单。建立风险模型的过程也就是进行信息系统与业务的匹配度分析过程,匹配度高的项必然风险小,匹配度低的项势必风险高。

要素:风控模型的初步建立完成标志是与业务所有者达成共识

2.精准运维日常运行之信息采集与反馈

首先,以风控模型为基准,及时了解业务所有者的具体要求并将系统的情况与所有者交流,得到有价值的服务信息;其次,可以利用自动化监控技术采集到用户端的用户体验数据,如访问网站人数、登录系统效率、页面响应速度、访问流量等;也可以利用大数据及最新的ELK技术的方式采集系统系统日常运行的业务数据、资源使用情况数据、业务运行效率日志数据等。此外,还可以不断与业务部门进行进行沟通协调,采集用户的反馈与需求。

要素:双方都了解对方的意图,并形成共识。

3 .精准运维日常运行之预测及计划编制

根据采集信息进行预测与计划的编制,所谓预测,就是对尚未发生或目前还不确切的失误进行预先的估计和推断,是现时对事物将要发生的结果进行探讨和研究。科学预测是建立在客观事物发展规律基础之上的科学推断。系统预测的实质就是充分分析、理解系统状况发展变化的规律。用相关性、数据趋势分析法及大数据分析技术对采集的数据进行挖掘分析,分析出业务需求与资源之间的相关性,分析出业务需求与运维人员之间的相关性,分析出应用系统使用的历史与未来趋势,根据趋势与现有资源的匹配性来实时优化系统资源和人力资源,并编制详细的系统优化实施方案对系统进行优化。计划即是根据预测和业务所有者要求编制的行动方案。

要素:计划要得到所有者的认可,如需要可优化风控模型。

4.精准运维日常运行之系统优化执行与实施

根据编制的优化实施方案精心组织实施,且与业务方充分沟通,在不影响业务的基础上完成系统优化、应急演练、风险措施改进的实施服务工作。

要素:注意行为规范。

5.精准运维日常运行之校验与评估

根据实施结果与业务运行情况及对系统运行情况的采集,不断的校验实施效果,再进一步评估改进,通过PDCA循环往复直至达到系统与业务的精确匹配与心跳同步。

要素:结果要进入下一个环节,即反馈给所有者,如有必要可修改风控模型。

精准运维实例

这里我们拿一个经典案例来说。大家最为熟悉的微信红包,在除夕前后会产生业务高峰,大量用户在同一时间摇红包,瞬间产生每秒千万级的请求,这个量级的请求如果不加以疏导处理直接到达后台,必定会导致后端服务过载甚至崩溃。因2014年春节以后,微信红包业务量呈现快速增长,微信后台运维团队预测2015年春节的业务量将爆发式增长,对系统产生巨大压力。

承载IT运维的成功之梦:精准运维

为应对2015年的春节业务高峰,微信后台运维团队开展了一系列准备工作,首先是针对业务建立风控模型,以风控模型为基础展开下面的工作:

次序

精准运维步骤

工作内容

第一步

信息采集与反馈

需要采集与统计的数据包括:业务功能与体验的重点,历史上类似情况系统资源的要求,薄弱环节在哪里,可动用的资源有哪些

第二步

预测与计划

1)将上述采集与统计数据进行趋势分析;
2)通过大数据技术针对业务量情况预测春节高峰时段数据增长量;
3)制定服务功能确保优先级,确保用户体验;

4)制定保障方案与计划,以及应急预案。

第三步

执行与实施

1)对软件上的风险实施升级改造方案;
2)对硬件上的风险实施冗余或扩容方案;
3)对环境上风险实施整改方案、预警机制;
4)对后台保障与支持人员实施针对性的强化培训方案、人员补充计划;
5)落实应急预案。

第四步

校验与评估

在峰值期间边评估边对策,小步快跑,不断重复一二三四步。

事实上,按照上述步骤,微信后台运维团队在业务高峰期到来前完成了后台和APP应用在微信红包功能上的升级,硬件进行了相当规模的扩容,对系统运行环境进行了全面整改,对微信红包模块支持人员数量进行了补充和技能提升,这对于最终系统稳定高效运行提供了有力保障。最终的结果也表明,精准运维产生了积极的效果。2015年微信发红包,除夕摇一摇总次数110亿次,峰值1400万次/秒,8.1亿次每分钟,微信红包收发达10.1亿次!惊人数字再次让人们好奇,2015年微信红包方式与去年用户与用户之间互发红包相比,摇红包的方式对业务量来说是一个极大的爆发,光是除夕10:30送出的一波红包就达到了1.2亿个,已经是2014年除夕夜峰值的4800倍之巨(2014年峰值每分钟被拆开红包数量仅2.5W个)!

我们在惊叹腾讯再次创造奇迹的同时,仔细想想,微信摇红包是个业务,实现这个业务的是它的信息系统,就是说配什么样的员工、用什么样的硬件、怎样的应用更合理,需要什么样的环境,这些决策都需要基于预测用户的群体意识和需求,以此为目标导向进行大数据分析和匹配度分析,进行资源的优化配置,从而实现微信红包业务的高效运行。

写在最后

一篇短文很难把把精准运维说透,把it运维之道说清,我们随着技术的发展以及观念的转变,让服务的春天早点来临,让运维人更体面、更自豪。

展望未来,随着信息技术和互联网技术的不断发展深入,各行各业的业务将更加依赖于信息系统,信息系统的稳定性、健壮性、可拓展性及其与业务的匹配度将直接影响业务的运营效率与效果。在以大数据、人工智能为基础的智能感知世界,就在未来十年诞生。借助这些新兴技术,精准运维将有助于我们的企业服务精准化、个性化、甚至引领潮流化,使企业强者恒强。让我们张开双臂,拥抱未来,以大数据、自动化运维、人工智能为基础,精准感知、精准运维,这是IT运维人的成功之道,也是必由之路。中烟信息一直在运维道路上探索,欢迎有识之士与我们交流和合作,也推荐大家有空读读《IT运维之道》