参考链接:http://www.jianshu.com/p/e07661b9bae8
一、前言
大型复杂的分布式系统中,高可用相关的技术架构非常重要。
高可用架构非常重要的一个环节,就是如何将分布式系统中的各个服务打造成高可用的服务,从而足以应对分布式系统环境中的各种各样的问题,,避免整个分布式系统被某个服务的故障给拖垮。
比如:
- 服务间的调用超时
- 服务间的调用失败
要解决这些棘手的分布式系统可用性问题,就涉及到了高可用分布式系统中的很多重要的技术,包括:
- 资源隔离
- 限流与过载保护
- 熔断
- 优雅降级
- 容错
- 超时控制
- 监控运维
二、运行原理
Hystrix是国外知名的视频网站Netflix所开源的非常流行的高可用架构框架。Hystrix能够完美的解决分布式系统架构中打造高可用服务面临的一系列技术难题。
Hystrix “豪猪”,具有自我保护的能力。hystrix 通过如下机制来解决雪崩效应问题。
- 资源隔离:包括线程池隔离和信号量隔离,限制调用分布式服务的资源使用,某一个调用的服务出现问题不会影响其他服务调用。
- 降级机制:超时降级、资源不足时(线程或信号量)降级,降级后可以配合降级接口返回托底数据。
- 融断:当失败率达到阀值自动触发降级(如因网络故障/超时造成的失败率高),熔断器触发的快速失败会进行快速恢复。
- 缓存:提供了请求缓存、请求合并实现。
Hystrix支持实时监控、报警、控制(修改配置)。
(2)信号量隔离模式:使用一个原子计数器(或信号量)记录当前有多少个线程在运行,请求来先判断计数器的数值,若超过设置的最大线程个数则丢弃该类型的新请求,若不超过则执行计数操作请求来计数器+1,请求返回计数器-1。这种方式是严格的控制线程且立即返回模式,无法应对突发流量(流量洪峰来临时,处理的线程超过数量,其他的请求会直接返回,不继续去请求依赖的服务)
熔断
降级
服务降级的目的保证上游服务的稳定性,当整体资源快不够了,将某些服务先关掉,待渡过难关,再开启回来。
三、调用过程
工作流程(参考:https://github.com/Netflix/Hystrix/wiki/How-it-Works)
1、 创建一个 HystrixCommand 或 HystrixObservableCommand 实例
第一步就是构建一个 HystrixCommand 或 HystrixObservableCommand 实例来向其它组件发出操作请求,通过构造方法来创建实例。
HystrixCommand:返回一个单响应
HystrixObservableCommand:返回一个观察者发出的响应
2、 执行方法
这里有4个方法,前两个只适用于 HystrixCommand 不适用于 HystrixObservableCommand
execute():阻塞型方法,返回单个结果(或者抛出异常)
queue():异步方法,返回一个 Future 对象,可以从中取出单个结果(或者抛出异常)
observe():返回Observable 对象
toObservable():返回Observable 对象
3、 缓存判断
检查缓存内是否有对应指令的结果,如果有的话,将缓存的结果直接以 Observable 对象的形式返回
4、 断路器判断
检查Circuit Breaker的状态。如果Circuit Breaker的状态为开启状态,Hystrix将不会执行对应指令,而是直接进入失败处理状态(图中8)。如果Circuit Breaker的状态为关闭状态,Hystrix会继续执行(图5)
5、 线程池、任务队列、信号量的检查
确认是否有足够的资源执行操作指令。当线程池和队列(或者是信号量,当不使用线程池隔离模式的时候)资源满的时候,Hystrix将不会执行对应指令并且会直接进入失败处理状态(图8)
6、 HystrixObservableCommand.construct() 和 HystrixCommand.run()
如果资源充足,Hystrix将会执行操作指令。操作指令的调用最终都会到这两个方法:
HystrixCommand.run():返回一个响应或者抛出一个异常
HystrixObservableCommand.construct():返回一个可观测的发出响应(s)或发送一个onError通知
如果执行指令的时间超时,执行线程会抛出 TimeoutException 异常。Hystrix会抛弃结果并直接进入失败处理状态。如果执行指令成功,Hystrix会进行一系列的数据记录,然后返回执行的结果。
7、 统计断路器的健康情况
Hystrix会根据记录的数据来计算失败比率,一旦失败比率达到某一阈值将自动开启Circuit Breaker
8、 回退
如果我们在Command中实现了HystrixCommand.getFallback()方法(或HystrixObservableCommand. resumeWithFallback() 方法,Hystrix会返回对应方法的结果。如果没有实现这些方法的话,仍然 Hystrix会返回一个空的 Observable 对象,并且可以通过 onError 来终止并处理错误。
调用不同的方法返回不同的结果:
execute(): 将会抛出异常
queue(): 将会返回一个Future 对象,如果调用它的get()方法将会抛出异常
observe()和 toObservable():都会返回上述的 Observable 对象
9、 返回成功
如果Hystrix执行成功,返回的响应取决于在步骤2中调用命令。
execute():阻塞型方法,返回单个结果(或者抛出异常)
queue():异步方法,返回一个 Future 对象,可以从中取出单个结果(或者抛出异常)
observe():返回Observable 对象
toObservable():返回Observable 对象
断路器的工作原理
断路器开启或者关闭的条件:
1、 当满足一定的阀值的时候(默认10秒内超过20个请求次数)
2、 当失败率达到一定的时候(默认10秒内超过50%的请求失败)
3、 到达以上阀值,断路器将会开启
4、 当开启的时候,所有请求都不会进行转发
5、 一段时间之后(默认是5秒),这个时候断路器是半开状态,会让其中一个请求进行转发。如果成功,断路器会关闭,若失败,继续开启。重复4