1. 系统的稳定性
系统稳定性是根本,一个系统一旦不够稳定,即使再花哨也不管用;但是系统的稳定性【不出现大问题】,应该从哪几方面着手:
(1). 双机房容灾/快速切换流量方案
- 双机房容灾主要应对网络问题,一旦一个机房的网络有问题,可以迅速把流量切到另外一个机房。
- 但切流量的方案要演练并且足够的简单,最好是脚本或者是平台来切换。
- 服务降级:当我们的服务出现问题,要有预案把我们的影响、特别是上下游的影响降低到最小
(2). 流量细分、把控
- 当一个系统作为一个服务于很多子系统的平台时,需要进行流量细分,否则出现问题时都找不到接口人;对query进行src 标记、统计、展现
- 当我们的平台和接入方式已经被公布出去后,要做好流量把控,否则流量会“偷偷”进来,但我们不知道,一旦这些query有问题或者我们系统有动作
时也通知不到她,也会出现N多问题;所以要有完善的一套“白名单”机制,同时给客户提供一套接入白名单的方案【比如快速申请、审核、持久化到db】
(3). 规范
- 当一个系统或者平台足够大,或者流量足够复杂;尤其客户更多时,我们需要一个接入规范和消息同步、周知流量;否则会出现各种问题。