Redis原理篇之网络模型

文章目录

Redis原理篇之网络模型
- 1 用户空间和内核空间
- 2 阻塞IO
- 3 非阻塞IO
- 4 IO多路复用
- - 4.1 IO多路复用-select
  - 4.2 IO多路复用-poll
  - 4.3 IO多路复用-epoll
  - 4.4 总结
- 5 信号驱动IO
- 6 异步IO
- 7 同步和异步
- 8 Redis网络模型
- - 8.1 Redis是单线程吗？为什么要用单线程
  - 8.2 Redis单线程及多线程网络模型变更

1 用户空间和内核空间

任何Linux发行版，其系统内核都是Linux。我们的应用都需要通过Linux内核与硬件交互。

在这里插入图片描述

为了避免用户应用导致冲突甚至内核崩溃，用户应用与内核是分离的：

进程的寻址空间会划分为两部分：内核空间、用户空间
- 不管哪一种空间都无法直接访问物理内存，而是直接分配虚拟内存空间，映射到不同的物理内存，就像前面提到的页表。所以内核、用户空间访问虚拟空间的时候就需要去访问虚拟地址了。
- 这个地址是无符号的整数，从0开始，最大值取决于CPU的地址总线和寄存器的带宽，比如一个32位系统，带宽也就是32，所以地址的最大值就是2³² ,寻址范围0~2³² ，一个地址对应一个字节，所以存储空间有2³²字节，4GB。

在这里插入图片描述

用户空间 只能执行受限的命令(Ring3)，而且不能直接调用系统资源，必须通过内核提供的接口来访问
内核空间 可以执行特权命令(Ring0)，调用一切系统资源

在这里插入图片描述

Linux系统为了提高I0效率，会在用户空间和内核空间都加入缓冲区 ：

写数据时，要把用户缓冲数据拷贝到内核缓冲区，然后写入设备
读数据时，要从设备读取数据到内核缓冲区，然后拷贝到用户缓冲区

在这里插入图片描述

在《UNIX网络编程》一书中，总结归纳了5种I0模型：

阻塞IO (Blocking IO)
非阻塞IO (Nonblocking IO)
IO多路复用 (IO Multiplexing)
信号驱动IO (Signal Driven IO)
异步IO (Asynchronous IO)

2 阻塞IO

在这里插入图片描述

可以看到，阻塞I0模型中，用户进程在两个阶段都是阻塞状态。

3 非阻塞IO

顾名思义，非阻塞IO的recvfrom操作会立即返回结果而不是阻塞用户进程。

在这里插入图片描述

在一阶段等待数据的过程中，IO是非阻塞的，不断反复调用recvfrom。
在二阶段，当数据准备就绪时，IO是阻塞的，等待数据从内核拷贝到用户空间。

可以看到，非阻塞IO模型中，用户进程在第一个阶段是非阻塞，第二个阶段是阻塞状态。虽然是非阻塞，但性能并没有得到提高。而且忙等机制会导致CPU空转，CPU使用率暴增。

4 IO多路复用

无论是阻塞I0还是非阻塞10，用户应用在一阶段都需要调用recvfrom来获取数据，差别在于无数据时的处理方案：

如果调用recvfrom时，恰好没有数据，阻塞10会使进程阻塞，非阻塞10使CPU空转，都不能充分发挥CPU的作用
如果调用recvfrom时，恰好有数据，则用户进程可以直接进入第二阶段，读取并处理数据

比如服务端处理客户端Socket请求时，在单线程情况下，只能依次处理每一个socket，如果正在处理的socket恰好未就绪(数据不可读或不可写)，线程就会被阻塞，所有其它客户端socket都必须等待，性能自然会很差。

在这里插入图片描述

要提高效率有几种办法？

方案一：增加更多服务员(多线程
方案二：不排队，谁想好了吃什么(数据就绪了)，服务员就给谁点餐(用户应用就去读取数据)

文件描述符(File Descriptor) ：简称FD，是一个从0开始递增的无符号整数，用来关联Linux中的一个文件。在Linux中一切皆文件，例如常规文件、视频、硬件设备等，当然也包括网络套接字(Socket)。

I0多路复用： 是利用单个线程来同时监听多个FD，并在某个FD可读、可写时得到通知，从而避免无效的等待，充分利用CPU资源。

在这里插入图片描述

首先使用select去监听多个sockets，等待其中一个或多个数据准备就绪，然后返回
调用recvfrom指向数据就绪的sockets，将数据从内核空间拷贝到用户空间，此过程仍然阻塞

既然两个过程还是会出现阻塞，那性能比前两节IO模型高在哪里呢？

前两节调用的是recvfrom去监听socket，它只能监听一个
而IO多路复用高就高在不只是在等待一个socket的时候阻塞，而是同时监听多个socket，阻塞时间会减少，因为等待的时间是数据准备就绪最慢的那个socket，减少了无效等待。

不过监听FD的方式、通知的方式又有多种实现，常见的有：

select
poll
epoll

差异：

差异:

select和poll只会通知用户进程有FD就绪，但不确定具体是哪个FD，需要用户进程逐个遍历FD来确认
epoll则会在通知用户进程FD就绪的同时，把已就绪的FQ写入用户空间

4.1 IO多路复用-select

select是Linux中最早的I/0多路复用实现方案：

在这里插入图片描述

4.2 IO多路复用-poll

poll模式对select模式做了简单改进，但性能提升不明显，部分关键代码如下:

在这里插入图片描述

4.3 IO多路复用-epoll

在这里插入图片描述

4.4 总结

在这里插入图片描述

5 信号驱动IO

信号驱动I0 是与内核建立SIGI0的信号关联并设置回调，当内核有FD就绪时，会发出SIGIO信号通知用户，期间用户应用可以执行其它业务，无需阻塞等待。

在这里插入图片描述

当有大量10操作时，信号较多，SIGIO处理函数不能及时处理可能导致信号队列溢出

而且内核空间与用户空间的频繁信号交互性能也较低。

6 异步IO

在这里插入图片描述

异步I0 的整个过程都是非阻塞的，用户进程调用完异步API后就可以去做其它事情，内核等待数据就绪并拷贝到用户空间后才会递交信号，通知用户进程。

可以看到，异步10模型中，用户进程在两个阶段都是非阻塞状态。

7 同步和异步

I0操作是同步还是异步，关键看数据在 内核空间与用户空间的拷贝过程 (数据读写的IO操作)，也就是阶段二
是同步还是异步：

在这里插入图片描述

由于只有异步I/O的第二个阶段是异步的，所以只有异步I/O才是真的异步。

8 Redis网络模型

8.1 Redis是单线程吗？为什么要用单线程

Redis到底是单线程还是多线程?

如果仅仅聊Redis的核心业务部分(命令处理)，答案是单线程
如果是聊整个Redis，那么答案就是多线程

在Redis版本迭代过程中，在两个重要的时间节点上引入了多线程的支持

Redis v4.0:引入多线程异步处理一些耗时较长的任务，例如异步删除命令unlink
Redis v6.0:在核心网络模型中引入多线程，进一步提高对于多核CPU的利用率

思考：

1.为什么Redis要选择单线程?

抛开持久化不谈，Redis是纯内存操作，执行速度非常快，它的性能瓶颈是网络延迟而不是执行速度，因此多线程并不会带来巨大的性能提升。
多线程会导致过多的上下文切换，带来不必要的开销
引入多线程会面临线程安全问题，必然要引入线程锁这样的安全手段，实现复杂度增高，而且性能也会大打折扣

8.2 Redis单线程及多线程网络模型变更

Redis通过 IO多路复用 来提高网络性能，并且支持各种不同的多路复用实现，并且将这些实现进行封装，提供了统一的高性能事件库API库 AE:

在这里插入图片描述

这里的ssfd是否可读有两种条件

可读就是有客户端连接来了：此时先建一个监听FD
非可读就是 web已有的客户端请求接口进行数据访问的（数据就绪可以读了）

创建epoll_create实例，得到ssfd，一旦ssfd可读，就说明有客户端链连接来了，用accept（）接收，并监听此FD。此过程中，如果有监听的FD就绪了。就会记录在list_head中，list_head有数据，就会不断取出里面的数据进行读取操作，然后作出相应响应。

看Redis单线程网络模型的整个流程

在这里插入图片描述

两种Socket

一开始只有Server Socket，绑定的是连接应答处理器，一旦有客户端连接就会响应，接收客户端socket并注册客户端FD。所以aeEventLoop注册的FD就有个了。
注册了客户端socket，就有client socket，绑定的是命令请求处理器，一旦数据准备就绪，则开始读取对应FD的数据并做出响应。

在这里插入图片描述

这里实现不想听听不懂了。

在这里插入图片描述

Redis 6.0版本中引入了多线程，目的是为了提高IO读写效率。因此在 解析客户端命令、写响应结果时 采用了多线程。 核心的命令执行IO多路复用模块依然是由主线程执行。

在这里插入图片描述

命令请求处理器：主线程会将多个不同的客户端分发给多个不同的线程，由他们去并行的解析请求当中的数据，把它解析成命令。真正执行命令还是主线程一个人执行。
命令回复处理器：当写结果的时候也会多线程回复事件，从队列中取出命令多线程写。

秒客网

Redis原理篇之网络模型