文件名称:Chaos工程英文文档
文件大小:1.32MB
文件格式:DOCX
更新时间:2021-01-23 04:42:16
Chaos Engineering 软件 工程
混沌工程原理解析,超大规模分布式软件系统的持续发展正快速转变软件工程层面的游戏规则。在这一行业当中,我们正广泛采取灵活度更高且速度更快的部署方案。然而,这一变革又带来了新的紧迫问题:在我们投身于复杂的生产系统之前,对其实际表现拥有怎样的信心? 即使分布式系统当中的每一项独立服务皆拥有正常的运作效果,但这些服务的彼此交互仍可能导致无法预测的结果。而这类结果一旦遭遇较为罕见但极具破坏性的现实事件,则将令分布式系统自身的混乱程度更上一层楼。 我们需要在系统范围之内实际出现异常活动之前,抢先发现其中的薄弱环节。系统性弱点可能表现为以下形式:服务不可用时后备设置不当; 因超时设置不当导致反复重试; 下游依赖关系在接收到大量流量时出现中断; 发生单点故障时连锁引发后续问题等等。我们有必要主动解决此类薄弱环节,确保其不致真正对生产环境下的用户造成影响。要实现这项目标,我们显然有必要管理此类系统内的混乱性因素,充分发挥灵活性与速度优势,最终在高复杂性基础之上建立起值得信任的生产部署体系。 我们将利用一套基于经验的系统性方案解决规模化分布式系统中的混乱难题,同时凭借系统承受各类现实状况的能力建立信心。我们将立足一项受控实验观察分布式系统的运作方式——这种作法被我们称为“混沌工程”。