一文搞懂RPC原理

时间:2024-10-22 08:04:51

了解RPC

 

RPC(Remote Procedure Call Protocol)——远程过程调用协议:

一般用于实现部署在不同机器上的系统之间的方法调用,使得程序能够像访问本地资源一样,通过网络传输去访问远端系统资源。

描述:

通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。

RPC采用客户机/服务器模式(C/S)。请求程序就是一个客户机,而服务提供程序就是一个服务器。首先,客户机调用进程发送一个有进程参数的调用信息到服务进程,然后等待应答信息。在服务器端,进程保持睡眠状态直到调用信息到达为止。当一个调用信息到达,服务器获得进程参数,计算结果,发送答复信息,然后等待下一个调用信息,最后,客户端调用进程接收答复信息,获得进程结果,然后调用执行继续进行。

RPC框架实现的架构原理:

Client Code :客户端调用方代码实现,负责发起RPC调用,为调用方用户提供使用API。

Seriallzation/Deseraillzation:负责对RPC调用通过网络传输的内容进行序列化与反序列化,不同的RPC框架有不同的实现机制。主要分为文本与二进制两大类。文本类别的序列化机制主要有XML与JSON两种格式。二级制类别的序列化机制常见的有看Java原生的序列化机制,以及Hession、protobuf、Thrift、Avro、Kryo、MessagePack等,不同的序列化方式在可读性、码流大小、支持的数据类型及性能等方面都存在较大的差异,需要用户根据自己的实际情况进行甄别与筛选。

Stub Proxy:可以看作是一种代理对象,屏蔽RPC调用过程中复杂的网络处理逻辑,使得RPC调用透明化,能够保持与本地调用一样的代码风格。

Transport:作为RPC框架底层的通信传输模块,一般通过Socket在客户端与服务端之间传递请求与应答消息。

Server Code:服务端服务业务逻辑具体的实现。

常见RPC框架:SpringCloud、Dubbo、RMI、CXF/Axis2、Thrift、gRPC、HTTP Client等。

 

RPC解决了什么问题:

1.将业务拆分成几个互不关联的应用,分别部署在各自机器上,以划清逻辑并减小压力。

2.当业务/应用越来越多就不是简单的拆分能够解决,可以将公共业务逻辑抽离出来,将之组成独立的服务Service应用 。而原有的、新增的应用都可以与那些独立的Service应用 交互,以此来完成完整的业务功能。

 

RPC框架与分布式服务框架的区别:

RPC实现了服务消费者调用方Client与服务提供实现方Server之间的点对点调用流程,包括stub、通信、数据的序列化/反序列化。调用方与服务提供方一般采用直连的调用方式。

而分布式服务框架,除了RPC的特性,还包括了Server提供服务的负载均衡策略及实现,服务的注册、发布与引入,以及服务的高可用策略、服务治理等特性。

 

RPC原理实例分析:/

文章大部分摘自:/kingcat666/article/details/78577079

 

RPC原理:

Nelson 的论文中指出实现 RPC 的程序包括 5 个部分:

1. User

2. User-stub

3. RPCRuntime

4. Server-stub

5. Server

这 5 个部分的关系如下图所示

这里 user 就是 client 端,当 user 想发起一个远程调用时,它实际是通过本地调用user-stub。user-stub 负责将调用的接口、方法和参数通过约定的协议规范进行编码并通过本地的 RPCRuntime 实例传输到远端的实例。远端 RPCRuntime 实例收到请求后交给 server-stub 进行解码后发起本地端调用,调用结果再返回给 user 端。

 

粗粒度的 RPC 实现概念结构,这里我们进一步细化它应该由哪些组件构成,如下图所示。

RPC 服务方通过 RpcServer 去导出(export)远程接口方法,而客户方通过 RpcClient 去引入(import)远程接口方法。客户方像调用本地方法一样去调用远程接口方法,RPC 框架提供接口的代理实现,实际的调用将委托给代理RpcProxy 。代理封装调用信息并将调用转交给RpcInvoker 去实际执行。在客户端的RpcInvoker 通过连接器RpcConnector 去维持与服务端的通道RpcChannel,并使用RpcProtocol 执行协议编码(encode)并将编码后的请求消息通过通道发送给服务方。
RPC 服务端接收器 RpcAcceptor 接收客户端的调用请求,同样使用RpcProtocol 执行协议解码(decode)。解码后的调用信息传递给RpcProcessor 去控制处理调用过程,最后再委托调用给RpcInvoker 去实际执行并返回调用结果。如下是各个部分的详细职责:

1. RpcServer     负责导出(export)远程接口  

2. RpcClient     负责导入(import)远程接口的代理实现  

3. RpcProxy     远程接口的代理实现  

4. RpcInvoker   

   客户方实现:负责编码调用信息和发送调用请求到服务方并等待调用结果返回  

   服务方实现:负责调用服务端接口的具体实现并返回调用结果  

5. RpcProtocol     负责协议编/解码  

6. RpcConnector     负责维持客户方和服务方的连接通道和发送数据到服务方  

7. RpcAcceptor     负责接收客户方请求并返回请求结果  

8. RpcProcessor     负责在服务方控制调用过程,包括管理调用线程池、超时时间等  

9. RpcChannel     数据传输通道  

 

RPC核心技术:

(1)服务暴露:

远程提供者需要以某种形式提供服务调用相关的信息,包括但不限于服务接口定义数据结构、或者中间态的服务定义文件。例如Facebook的Thrift的IDL文件,Web service的WSDL文件;服务的调用者需要通过一定的途径获取远程服务调用相关的信息。

目前,大部分跨语言平台 RPC 框架采用根据 IDL 定义通过 code generator 去生成 stub 代码,这种方式下实际导入的过程就是通过代码生成器在编译期完成的。代码生成的方式对跨语言平台 RPC 框架而言是必然的选择,而对于同一语言平台的 RPC 则可以通过共享接口定义来实现。这里的导入方式本质也是一种代码生成技术,只不过是在运行时生成,比静态编译期的代码生成看起来更简洁些。

java 中还有一种比较特殊的调用就是多态,也就是一个接口可能有多个实现,那么远程调用时到底调用哪个?这个本地调用的语义是通过 jvm 提供的引用多态性隐式实现的,那么对于 RPC 来说跨进程的调用就没法隐式实现了。如果前面DemoService 接口有 2 个实现,那么在导出接口时就需要特殊标记不同的实现需要,那么远程调用时也需要传递该标记才能调用到正确的实现类,这样就解决了多态调用的语义问题。

(2)远程代理对象:

服务调用者用的服务实际是远程服务的本地代理。说白了就是通过动态代理来实现。

java 里至少提供了两种技术来提供动态代码生成,一种是 jdk 动态代理,另外一种是字节码生成。动态代理相比字节码生成使用起来更方便,但动态代理方式在性能上是要逊色于直接的字节码生成的,而字节码生成在代码可读性上要差很多。两者权衡起来,个人认为牺牲一些性能来获得代码可读性和可维护性显得更重要。

(3)通信:

RPC框架与具体的协议无关。RPC 可基于 HTTP 或 TCP 协议,Web Service 就是基于 HTTP 协议的 RPC,它具有良好的跨平台性,但其性能却不如基于 TCP 协议的 RPC。

1. TCP/HTTP:众所周知,TCP 是传输层协议,HTTP 是应用层协议,而传输层较应用层更加底层,在数据传输方面,越底层越快,因此,在一般情况下,TCP 一定比 HTTP 快。

2. 消息ID:RPC 的应用场景实质是一种可靠的请求应答消息流,和 HTTP 类似。因此选择长连接方式的 TCP 协议会更高效,与 HTTP 不同的是在协议层面我们定义了每个消息的唯一 id,因此可以更容易的复用连接。

3. IO方式:为了支持高并发,传统的阻塞式 IO 显然不太合适,因此我们需要异步的 IO,即 NIO。Java 提供了 NIO 的解决方案,Java 7 也提供了更优秀的 NIO.2 支持。

4. 多连接:既然使用长连接,那么第一个问题是到底 client 和 server 之间需要多少根连接?实际上单连接和多连接在使用上没有区别,对于数据传输量较小的应用类型,单连接基本足够。单连接和多连接最大的区别在于,每根连接都有自己私有的发送和接收缓冲区,因此大数据量传输时分散在不同的连接缓冲区会得到更好的吞吐效率。所以,如果你的数据传输量不足以让单连接的缓冲区一直处于饱和状态的话,那么使用多连接并不会产生任何明显的提升,反而会增加连接管理的开销。
5. 心跳:连接是由 client 端发起建立并维持。如果 client 和 server 之间是直连的,那么连接一般不会中断(当然物理链路故障除外)。如果 client 和 server 连接经过一些负载中转设备,有可能连接一段时间不活跃时会被这些中间设备中断。为了保持连接有必要定时为每个连接发送心跳数据以维持连接不中断。心跳消息是 RPC 框架库使用的内部消息,在前文协议头结构中也有一个专门的心跳位,就是用来标记心跳消息的,它对业务应用透明。

(4)序列化:

两方面会直接影响 RPC 的性能,一是传输方式,二是序列化。

1. 序列化方式:毕竟是远程通信,需要将对象转化成二进制流进行传输。不同的RPC框架应用的场景不同,在序列化上也会采取不同的技术。 就序列化而言,Java 提供了默认的序列化方式,但在高并发的情况下,这种方式将会带来一些性能上的瓶颈,于是市面上出现了一系列优秀的序列化框架,比如:Protobuf、Kryo、Hessian、Jackson 等,它们可以取代 Java 默认的序列化,从而提供更高效的性能。

2. 编码内容:出于效率考虑,编码的信息越少越好(传输数据少),编码的规则越简单越好(执行效率高)。如下是编码需要具备的信息:

 

  1. -- 调用编码 --
  2. 1. 接口方法
  3. 包括接口名、方法名
  4. 2. 方法参数
  5. 包括参数类型、参数值
  6. 3. 调用属性
  7. 包括调用属性信息,例如调用附件隐式参数、调用超时时间等
  8. -- 返回编码 --
  9. 1. 返回结果
  10. 接口方法中定义的返回值
  11. 2. 返回码
  12. 异常返回码
  13. 3. 返回异常信息
  14. 调用异常信息

除了以上这些必须的调用信息,我们可能还需要一些元信息以方便程序编解码以及未来可能的扩展。这样我们的编码消息里面就分成了两部分,一部分是元信息、另一部分是调用的必要信息。如果设计一种 RPC 协议消息的话,元信息我们把它放在协议消息头中,而必要信息放在协议消息体中。下面给出一种概念上的 RPC 协议消息设计格式:

  1. -- 消息头 --
  2. magic : 协议魔数,为解码设计
  3. header size: 协议头长度,为扩展设计
  4. version : 协议版本,为兼容设计
  5. st : 消息体序列化类型
  6. hb : 心跳消息标记,为长连接传输层心跳设计
  7. ow : 单向消息标记,
  8. rp : 响应消息标记,不置位默认是请求消息
  9. status code: 响应消息状态码
  10. reserved : 为字节对齐保留
  11. message id : 消息 id
  12. body size : 消息体长度
  13. -- 消息体 --
  14. 采用序列化编码,常见有以下格式
  15. xml : 如 webservie soap
  16. json : 如 JSON-RPC
  17. binary: 如 thrift; hession; kryo 等