系统的稳定性

时间:2022-12-12 22:00:14

1. 系统的稳定性

系统稳定性是根本,一个系统一旦不够稳定,即使再花哨也不管用;但是系统的稳定性【不出现大问题】,应该从哪几方面着手:

(1). 双机房容灾/快速切换流量方案

  • 双机房容灾主要应对网络问题,一旦一个机房的网络有问题,可以迅速把流量切到另外一个机房。
  • 但切流量的方案要演练并且足够的简单,最好是脚本或者是平台来切换。
  • 服务降级:当我们的服务出现问题,要有预案把我们的影响、特别是上下游的影响降低到最小

(2). 流量细分、把控

  • 当一个系统作为一个服务于很多子系统的平台时,需要进行流量细分,否则出现问题时都找不到接口人;对query进行src 标记、统计、展现
  • 当我们的平台和接入方式已经被公布出去后,要做好流量把控,否则流量会“偷偷”进来,但我们不知道,一旦这些query有问题或者我们系统有动作
时也通知不到她,也会出现N多问题;所以要有完善的一套“白名单”机制,同时给客户提供一套接入白名单的方案【比如快速申请、审核、持久化到db】

(3). 规范

  • 当一个系统或者平台足够大,或者流量足够复杂;尤其客户更多时,我们需要一个接入规范和消息同步、周知流量;否则会出现各种问题。