对于一个已经有大量业务的互联网公司,变更管控无疑是极为重要的。几乎所有大型互联网公司的故障,都是变更导致的。但是注意,变更管理只能降低错误变更的影响,而不能减少到0!
最传统的变更管控
几个问题:
- 第一需要大量的运维人员。从事极为枯燥和重复的劳动
- 没有自动化的审批系统,开发提交变更申请需要手动审批
- 变更只有回滚机制。没有事先发现的能力
变更系统1.0
几个问题
-
第一,发布后的问题未必第一时间暴露。比如说业务数据错误没有及时发现。可能会延迟才才被发现,此时要想回滚就很麻烦了,不能做到瞬间止血。常见的例子比如说一个接口只有特定时间有流量,但是变更的时间没有流量。还有一种可能是
-
第二,一个大公司变更的途径可能相当多。如发布平台发布,管理平台管理,数据库订正,开发设置的后门接口,等等。每个部门都有自己的变更能力,想要打通不是一件特别容易的事情。
变更管控2.0
上面的第一个问题可谓无解。只能通过延长灰度时间,补充核对和监控来实现。