我认识的运维工作

时间:2020-12-06 21:49:54

运维这个工作对于非运维岗位的人来讲,一直都是神秘的,大家对于运维的工作内容其实并不了解,或者了解的比较片面。其实算是一种工作类别了,除去互联网软件行业的运维人员不说,一般的机关事业单位也有相应的岗位配置,即信息处,科技处之类维护单位IT系统的团队,他们与互联网公司的运维人员工作有类似之处。这里我主要介绍下国内互联网公司的运维。

国内互联网公司的运维工作大致有以下几个内容:1)资源管理,2)变更部署,3)监控告警,4)故障响应;除去这4个必备的内容外,很多公司的运维还需要参与系统的架构设计,推动系统性能,成本等优化以及系统安全等工作。

1.资源管理

资源管理其实最简单的理解就是机器的管理,包括采购,规划,调度等。对于开发团队来说,他们不需要关心机器从哪里来,只需要找运维要机器就好,运维会根据开发的需求给出相应的服务器资源。当然提到资源当然就涉及到成本,运维人员需要根据开发的业务重要程度合理的分配资源,保证采购回来的机器足够使用。

2.变更部署

这个部分其实包含的内容非常多而且也非常复杂,包括业务的部署,变更,发布,回退等等。先说部署工作,部署工作不仅仅是将开发生产出来的软件直接丢到机器上跑起来就完事的,这里需要运维解决环境问题,比如系统,依赖(包括库以及组件),网络等等,否则服务无法正常运行。变更其实是制定规则的一个过程,对于互联网公司来说,大多数故障都来源于变更,开发上线程序,运维迁移数据等等。为了降低变更的影响面,提高成功率,运维需要制定一系列的变更规则出来,比方灰度时间间隔不能太短,一次不能灰度太多机器等。


3.监控告警

除了基础监控(cpu,内存,磁盘等)以及开发自己上报的监控外,运维人员还需要对系统的关键部位安插告警点,对于敏感业务可能需要运维自己写脚本进行更加细致,及时以及定制化的监控以便及时发现和定位系统的异常


4.故障响应

这部分是运维最常见的工作,当系统发生故障时,运维需要进行定位和修复,运维一般是进行系统级别的操作,比方切换网络,切换机房等。代码层面的问题需要配合开发一起解决。


以上工作属于大多数运维人员的基本工作内容了,运维即运营维护,运营层面需要做到以最低的成本做到高可用和高性能,维护层面需要最及时的发现系统问题以及推动解决问题。这个岗位需要的不仅是技术,还需要一些管理能力,工作日常非常琐碎,单个运维一般会对接多个开发。

这个团队离老大比较远,一般是部门老大不怎么关注的团队,如果老大哪天找你了,相信我一般不会是好事