专访运维与人才外包专家黄琨:运维工作最大的挑战是什么?

时间:2021-12-23 03:02:31

 

51CTO独家特稿】运维是一个全面的工作,可以接触到各种领域的技术和人。运维是一种实操类的技能,其经验积累很大程度上来自于真实项目的积累。因此,对于运维领域的新人而言,如果他们工作的环境并没有提供一个良好的平台,就经常容易陷入困惑。

另一方面,那些在大型企业、外企工作过很长时间的资深运维工程师,他们当中的很多人都愿意分享自己的经验,并为广大运维工程师们提供一些指点。黄琨就是他们当中的一员。以IT运维外包项目的形式,一方面完成企业的生产需求,另一方面提供给缺乏经验的运维们一些锻炼的机会,正是黄琨与他的朋友们建立荣新IT培训中心的目的。

今天,我们邀请到了黄琨老师到场,谈谈他自己的运维成长经历及挑战。

黄琨,曾任知名外企SP公司运维经理,多年网络应用架构设计及运维管理经验。涉及技术包括:Linux/SUN小型机/Windows运维、互联网应用平台架构设计、Oracle/Mysql数据库、开源分布式集群架构设计及调优、网络及安全设备架构及管理。现在任职于荣新IT培训中心,担任IT运维外包项目总监、企业人才外包项目总监。

51CTO:您是什么时候开始做的运维?对工作一开始的几年有哪些深刻的记忆?

黄琨:我2002年之前的时候主要是从事系统集成项目的设计实施工作,之后进入石景山区信息中心负责全区各行政单位的网络、中心IDC的维护工作。那个时候的工作有苦有乐,最重要的是能够学到知识,有一个好的平台对我来说非常重要。当时正处于互联网业务发展的初期有些企业的业务平台也陆续在中心IDC上线,为我的技术学习提供了良好的氛围和实验条件。

记忆最深刻的就是有一次中心机房要从教委迁移到区*信息中心,那次迁移工作量相当大,包括:网络设备、服务器、新老应用割接、新设备上线、对网络和应用层做了链路冗余以及高可用等,让我有机会一次性的把之前做过的实验用到了真实的工作中。这次工作厂商方面以及中心骨干工程师都给予我大力支持,让我深为感动。当时网络设备用的是CISCO6500系列两台做的冗余,汇聚层和接入层也都是cisco的产品35系列和25系列;服务器400台左右,安全方面有天融信的防火墙、还有NIDS;规模大任务重,中心系统组负责人也是现在我的好朋友张琦老师对我的帮助非常大,从原中心业务系统整体梳理、备份、链路及服务割接工作的计划设计、各别服务系统更新、重要服务应用高可用的设计、双因素认证系统等等工作帮助我整理的井井有条,工作非常顺利,当时还获得中心同事的表扬,至今记忆犹新。

51CTO:能介绍一下您现在的工作情况么?您的职责包括哪些方面?

黄琨:现在和白璐、杨晨等开源和网络方面的精英一起开办了一家专门培养运维人才的培训机构——荣新IT培训中心,经过这几年的努力,培训中心的规模已经扩大了5倍。

我现在任CTO的职位,一方面负责企业项目及运维外包服务的工作,为企业提供优良的技术服务之外将前沿技术引入到培训中来;另一方面负责培训学员到企事业单位的人才输送工作。

51CTO:能否大致的描述一下您每天的工作内容?

黄琨:本人现在主要负责:

1.                         IT运维外包项目计划、项目方案设计监督、估算、管理、跟踪项目进度;

2.                         企业人才输送,组织技术指导,收集问题回馈,协助教学部形成教材;

3.                         Linux等相关运维人才市场的动向监控。

运维一线现在已有600以上荣新学员,我也描述一下他们刚入行时候的工作内容吧:

1.                         快速分析整理公司业务及平台设计逻辑架构,缓存、应用、数据库、网络设备及其他设备的运作原理;

2.                         平台各层面监控,避免监控死角,实时了解平台各层应用的运转情况;处理突发问题,迅速做出问题响应,做好问题处理分析报告为后续自动化运维设计作补充;

3.                         平台代码更新,根据平台规模设计部署更新源资源下载服务、补丁批量更新机制;

4.                         配合运维经理设计实现运维支撑系统,包括系统监控、报警、管理功能;实现数据图形报表、整合手机短信、邮件、声音报警功能,根据监控排障反映上来的问题不断完善自动化运维机制;

5.                         配合运维经理对平台架构进行分析,不断提升整体应用的可靠性与健壮性、提高性能及安全性;

51CTO:您觉得您目前的运维生涯当中最大的挑战是什么?

黄琨:运维这个工作所涉及的内容多,工作范围又处于企业生产平台,任务重压力很大。

本人认为挑战主要分为技术和沟通两方面,当然由于我现在从事培训和运维外包工作,所以另一个转型的挑战:

1、技术方面的挑战是运维工作的职责体现出来的,简单的说产品从需求收集、开发及网络系统架构设计、开发测试阶段、产品上线联调、问题反馈、正式商用后运维阶段等等,因篇幅有限我无法说得太详细,这些工作运维都需要跟下来。前几项工作中如果没有搞清楚产品的技术细节(比如:软/硬件资源评估确定硬件采购需求、平台性能的评估、服务性能调优安全加固、根据应用对服务器系统层的优化等等),将直接影响最后运维工作的正常开展。

从我看来,由于生产平台是企业的命脉所以运维工作上没有最大的挑战只有不断地挑战,例如平台上线后如果出现了瓶颈问题那么就需要快速锁定问题排查瓶颈,在最快的时间解决,尤其对于做互联网应用的企业,用户体验最重要,三天两头出问题,用户就会流失,企业利益就会受损。

2、沟通方面的挑战。一个合格的运维工程师不但工作要做好,与本职工作职责在一条链上的部门同事之间的沟通也至关重要,直接制约工作的效率与结果。比如平台运行中遭遇问题,经过排查也锁定了,但是之前与同事沟通不畅造成问题解决滞后,这个影响很大。

当然很多企业非常重视产品上线后的问题响应,从人力上设定了绩效,从技术上利用内部工单来配合解决,效果也是非常显著。不过制度始终是需要去遵守的,是死的,工作的人是活的,所以人与人之间的有效沟通也是非常重要的一项必修课,这对于运维工作人员来说是挑战,处理不好经常出现由于部门间工作性质不同带来的信息孤岛和沟通鸿沟。

3、最后一点,我希望将“Linux高效运维这项本领和更多的人分享,如何把最难理解的知识通过最平凡易懂的方式教授给学生,这才是当前工作的重中之重。

51CTO:您现在关注哪些技术领域?

黄琨:就运维所关注的技术领域来说,我只想用一句多而杂来形容。因为运维是保证企业业务平台稳定运行的基石。从开发,测试,整个平台架构中的缓存、应用、中间件、数据库、网络方面数据传输效率、平台监控报警、硬件层面等等方面都需要了解并且深入。

根据我现在的工作性质,要不断关注最新的技术,最重要的就是如何能够提高运维团队的工作效率以及组织学习兴趣小组总结运维工作中的技术难点,达到不断提高的目的,毕竟运维技术更新很快但是学习资源相对比开发来说是有差距的。

另外,我们已经成立的的、定期的Linux运维工程师沙龙活动,最近连续3期都是CDN网络加速的内容,以一个视频网站为原型进行细致的运维探讨。这里也希望51CTO的网友有空和我们一起来将沙龙的范围扩大。

51CTO:能否大致谈谈您对于未来三年的个人发展计划?

黄琨:其实技术和业务是分不开的,关注互联网行业/3G融合之后杀手级业务相关技术是我的主攻目标,并且在这个范围内提高自己的技术,能够为未来的发展提供一个很好的路线引导。

未来3年我将继续做好Linux及其相关的开源运维培训工作,在IT培训领域做出一番成绩。