一、基本概述:
1、互联网运维:通常属于技术部门,与研发、测试、系统管理同为互联网产品技术支撑的4大部门。
2、一个互联网产品的生成一般经历的过程是:产品经理、需求分析、研发部门开发、测试部门测试、运维部门部署发布以及长期的运行维护。
二、运维技术方向
1、相关技术:
1)服务监控技术:包括监控平台的研发、应用,服务监控准确性、实时性、全面性的保障
2)服务故障管理:包括服务的故障预案设计,预案的自动化执行,故障的总结并反馈到产品/系统的设计层面进行优化以提高产品的稳定性
3)服务容量管理:测量服务的容量,规划服务的机房建设,扩容、迁移等工作
4)服务性能优化:从各个方向,包括网络优化、操作系统优化、应用优化、客户端优化等,提高服务的性能和响应速度,改善用户体验
5)服务全局流量调度:接入服务的流量,根据容量和服务状态在各个机房间分配流量
6)服务任务调度:服务的各种定时/非定时任务的调度触发及状态监控
7)服务安全保障:包括服务的访问安全、防攻击、权限控制等
8)数据传输技术:包括p2p等各类传输技术的研发应用,也远距离大数据传输等问题的解决
9)服务自动发布部署:部署平台/工具的研发,及平台/工具的使用,做到安全、高效的发布服务
10)服务集群管理:包括服务的服务器管理、大规模集群管理等
11)服务成本优化:尽可能降低服务运行使用的资源,降低服务运行成本
12)数据库管理(DBA):通过设计、开发和管理高性能数据库集群,使数据库服务更稳定、更高效、更易于管理。
13)平台化的开发:类docker和google borg平台的开发管理,及服务接入技术
14)分布式存储平台的开发优化:类google gfs等分布式存储平台的研发及服务接入
2、运维的职责覆盖了产品从设计到发布、运行维护、变更升级及至下线的生命周期,各个阶段的职责包括:
1)产品发布前:参与设计并把有关运维准入,主要包括:
a.产品的业务熟悉;
b. 产品架构设计的合理性评估
c.资源评估
d.资源就位,将申请的服务器及基础环境/域名准备就位
2)产品发布:负责发布的具体工作,将具体的软件和系统/硬件资源整合形成产品并对外提供服务
3)产品运行维护:
主要工作包括:
a.监控
b.故障处理
3)产品性能/成本优化
产品对外提供服务最重要的一点是用户体验,用户体验中非常重要的是产品的可用性和响应速度。而如何用最合理的资源(如机器、带宽等)支持产品提供高可用和高速度的用户体验,这也是运维工程师的重要职责。
4)产品下线
发展良好的互联网产品将始终在线对外提供服务,但互联网产品快速迭代,也存在相当多孵化的产品最后被淘汰的情况,这些产品都需要做下线处理,这个过程运维工程师主要做好资源回收的工作,将机器/网络等资源回收后纳入资源池*其它服务使用。
三、运维包括那几类:
基础设施运维(IDC运维),系统运维,应用运维,数据库运维,监控运维,开发运维。