Redis源码---整体架构

前言

Redis目录结构

前言

前言
以先面后点的方法推进
无特殊说明，都是基于 Redis 5.0.8 版本的
掌握了 Redis 代码的整体架构，就相当于给 Redis 代码画了张全景图
有了这张图，再去学习 Redis 不同功能模块的设计与实现时，就可以从图上快速查找和定位这些功能模块对应的代码文件
而且，有了代码的全景图之后，还可以对 Redis 各方面的功能特性有个全面了解，这样也便于更加全面地掌握 Redis 的功能，而不会遗漏某一特性
学习 Redis 的代码架构要掌握以下两方面内容：
- 1--代码的目录结构和作用划分
- 目的是理解 Redis 代码的整体架构，以及所包含的代码功能类别；
- 2--系统功能模块与对应代码文件，目的是了解 Redis 实例提供的各项功能及其相应的实现文件，以便后续深入学习
Redis目录结构
前言
对于 Redis 来说，在它的源码总目录下
一共包含了deps、src、tests、utils四个子目录
这四个子目录分别对应了 Redis 中发挥不同作用的代码
deps目录
这个目录主要包含了 Redis 依赖的第三方代码库
包括
- Redis 的 C 语言版本客户端代码hiredis
- jemalloc 内存分配器代码
- readline 功能的替代代码 linenoise
- lua 脚本代码
这部分代码的一个显著特点，就是它们可以独立于 Redis src 目录下的功能源码进行编译
也就是说，它们可以独立于 Redis 存在和发展
下面这张图显示了 deps 目录下的子目录内容：
那么，为什么在 Redis 源码结构中会有第三方代码库目录呢？
其实主要有两方面的原因：
一方面
- Redis 作为一个用 C 语言写的用户态程序，它的不少功能是依赖于标准的 glibc 库提供的
- 比如内存分配、行读写(readline)、文件读写、子进程/线程创建等
- 但是，glibc库提供的某些功能实现，效率并不高
- 例子：glibc 库中实现的内存分配器的性能就不是很高，它的内存碎片化情况也比较严重
- 因此为了避免对系统性能产生影响，Redis 使用了 jemalloc 库替换了 glibc 库的内存分配器
- 可是，jemalloc 库本身又不属于 Redis 系统自身的功能，把它和 Redis 功能源码放在一个目录下并不合适
- 所以，Redis 使用了专门的 deps 目录来保存这部分代码
另一方面
- 有些功能是 Redis 运行所需要的
- 但是这部分功能又会独立于 Redis 进行开发和演进
- 这种类型最为典型的功能代码，就是 Redis 的客户端代码
- Redis 作为 Client-Server 架构的系统，访问 Redis 离不开客户端的支撑
- 此外，Redis 自身功能中的命令行 redis-cli、基准测试程序 redis-benchmark 以及哨兵，都需要用到客户端来访问 Redis 实例
- 不过针对客户端的开发，只要保证客户端和实例交互的过程满足 RESP 协议就行
- 客户端和实例的功能可以各自迭代演进
- 所以在 Redis 源码结构中，C 语言版本的客户端hiredis，就被放到了 deps 目录中，以便开发人员自行开发和改进客户端功能
- 总而言之，对于 deps 目录来说
- 只需要记住它主要存放了三类代码：
  - 一是 Redis 依赖的、实现更加高效的功能库，如内存分配
  - 二是独立于 Redis 开发演进的代码，如客户端
  - 三是 lua 脚本代码
src 目录
这个目录里面包含了 Redis 所有功能模块的代码文件，也是 Redis 源码的重要组成部分
同样，先来看下 src 目录下的子目录结构：
可以发现，src 目录下只有一个 modules 子目录，其中包含了一个实现 Redis module 的示例代码
剩余的源码文件都是在 src 目录下，没有再分下一级子目录
因为 Redis 的功能模块实现是典型的 C 语言风格，不同功能模块之间不再设置目录分隔
而是通过头文件包含来相互调用
这样的代码风格在基于 C 语言开发的系统软件中，也比较常见，比如 Memcached 的源码文件也是在同一级目录下
所以，当使用 C 语言来开发软件系统时，就可以参考 Redis 的功能源码结构，用一个扁平的目录组织所有的源码文件，这样模块相互间的引用也会很方便
tests 目录
在软件产品的开发过程中，除了第三方依赖库和功能模块源码以外，通常还需要在系统源码中，添加用于功能模块测试和单元测试的代码
而在 Redis 的代码目录中，就将这部分代码用一个 tests 目录统一管理了起来
Redis 实现的测试代码可以分成四部分，分别是
- 单元测试(对应 unit 子目录)
- Redis Cluster 功能测试(对应 cluster 子目录)
- 哨兵功能测试(对应 sentinel 子目录)
- 主从复制功能测试(对应 integration 子目录)
这些子目录中的测试代码使用了 Tcl 语言(通用的脚本语言)进行编写，主要目的就是方便进行测试
另外，每一部分的测试都是一个测试集合，覆盖了相应功能模块中的多项子功能测试
比如：
- 在单元测试的目录中，可以看到有针对过期 key 的测试(expire.tcl)、惰性删除的测试(lazyfree.tcl)，以及不同数据类型操作的测试(type 子目录)等
- 而在 Redis Cluster 功能测试的目录中，可以看到有针对故障切换的测试(failover.tcl)、副本迁移的测试(replica-migration.tcl)等
不过在 tests 目录中，除了有针对特定功能模块的测试代码外，还有一些代码是用来支撑测试功能的
这些代码在 assets、helpers、modules、support 四个目录中
这里有张图，展示了 tests 目录下的代码结构和层次：
utils 目录
在 Redis 开发过程中，还有一些功能属于辅助性功能，包括用于创建 Redis Cluster 的脚本、用于测试 LRU 算法效果的程序，以及可视化 rehash 过程的程序
在 Redis 代码结构中，这些功能代码都被归类到了 utils 目录中统一管理
下图展示了 utils 目录下的主要子目录：
重要的配置文件
除了 deps、src、tests、utils 四个子目录以外，Redis 源码总目录下其实还包含了两个重要的配置文件，一个是 Redis 实例的配置文件 redis.conf，另一个是哨兵的配置文件sentinel.conf
当需要查找或修改 Redis 实例或哨兵的配置时，就可以直接定位到源码总目录下
Redis 功能模块与源码对应
前言
Redis 代码结构中的 src 目录，包含了实现功能模块的 123 个代码文件
在这 123 个代码文件中，对于某个功能来说，一般包括了实现该功能的 C 语言文件(.c 文件)和对应的头文件(.h 文件)
比如，dict.c 和 dict.h 就是用于实现哈希表的 C 文件和头文件
那么，该如何将这 123 个文件和 Redis 的主要功能对应上呢？
其实，Redis 代码文件的命名非常规范，文件名中就体现了该文件实现的主要功能
比如，对于 rdb.h 和 rdb.c 这两个代码文件来说，从文件名上，就可以看出来它们是实现内存快照RDB 的对应代码
所以这里，为了能快速定位源码，就分别按照 Redis 的服务器实例、数据库操作、可靠性和可扩展性保证、辅助功能四个维度，把 Redis 功能源码梳理成了四条代码路径
服务器实例
Redis 在运行时是一个网络服务器实例，因此相应地就需要有代码实现服务器实例的初始化和主体控制流程
而这是由 server.h/server.c 实现的，Redis 整个代码的 main入口函数也是在 server.c 中
如果想了解 Redis 是如何开始运行的，那么就可以从server.c 的 main 函数开始看起
当然，对于一个网络服务器来说，它还需要提供网络通信功能
Redis 使用了基于事件驱动机制的网络通信框架，涉及的代码文件包括 ae.h/ae.c，ae_epoll.c，ae_evport.c，ae_kqueue.c，ae_select.c
关于事件驱动框架的具体设计思路与实现方法，后续会详细介绍
而除了事件驱动网络框架以外，与网络通信相关的功能还包括底层 TCP 网络通信和客户端实现
Redis 对 TCP 网络通信的 Socket 连接、设置等操作进行了封装，这些封装后的函数实现在anet.h/anet.c 中
这些函数在 Redis Cluster 创建和主从复制的过程中，会被调用并用于建立 TCP 连接
除此之外，客户端在 Redis 的运行过程中也会被广泛使用，比如实例返回读取的数据、主从复制时在主从库间传输数据、Redis Cluster 的切片实例通信等，都会用到客户端
Redis 将客户端的创建、消息回复等功能，实现在了 networking.c 文件中，如果想了解客户端的设计与实现，可以重点看下这个代码文件
这里也总结了与服务器实例相关的功能模块及对应的代码文件：
数据库数据类型与操作
Redis 数据库提供了丰富的键值对类型，其中包括了 String、List、Hash、Set 和 Sorted Set这五种基本键值类型
此外，Redis 还支持位图、HyperLogLog、Geo 等扩展数据类型
而为了支持这些数据类型，Redis 就使用了多种数据结构来作为这些类型的底层结构
比如，String 类型的底层数据结构是 SDS，而 Hash 类型的底层数据结构包括哈希表和压缩列表
不过，因为 Redis 实现的底层数据结构非常多，所以这里把这些底层结构和它们对应的键值对类型，以及相应的代码文件列在了下表中，可以用这张表来快速定位代码文件：
除了实现了诸多的数据类型以外，Redis 作为数据库，还实现了对键值对的新增、查询、修改和删除等操作接口，这部分功能是在 db.c 文件实现的
当然，Redis 作为内存数据库，其保存的数据量受限于内存大小
因此，内存的高效使用对于Redis 来说就非常重要
Redis 是如何优化内存使用的呢？
实际上，Redis 是从三个方面来优化内存使用的，分别是内存分配、内存回收，以及数据替换
首先，在内存分配方面，Redis 支持使用不同的内存分配器，包括 glibc 库提供的默认分配器tcmalloc、第三方库提供的 jemalloc
Redis 把对内存分配器的封装实现在了zmalloc.h/zmalloc.c
其次，在内存回收上，Redis 支持设置过期 key，并针对过期 key 可以使用不同删除策略，这部分代码实现在 expire.c 文件中
同时，为了避免大量 key 删除回收内存，会对系统性能产生影响，Redis 在 lazyfree.c 中实现了异步删除的功能
所以这样，就可以使用后台 IO线程来完成删除，以避免对 Redis 主线程的影响
最后，针对数据替换，如果内存满了，Redis 还会按照一定规则清除不需要的数据，这也是Redis 可以作为缓存使用的原因
Redis 实现的数据替换策略有很多种，包括 LRU、LFU 等经典算法
这部分的代码实现在了 evict.c 中
同样，这里也把和 Redis 数据库数据类型与操作相关的功能模块及代码文件，总结成了一张图：
高可靠性和高可扩展性
首先，虽然 Redis 一般是作为内存数据库来使用的，但是它也提供了可靠性保证
这主要体现在 Redis 可以对数据做持久化保存，并且它还实现了主从复制机制，从而可以提供故障恢复的功能
这部分的代码实现比较集中，主要包括以下两个部分：
- 1--数据持久化实现
  - Redis 的数据持久化实现有两种方式：内存快照 RDB 和 AOF 日志，分别实现在了rdb.h/rdb.c 和 aof.c 中
  - 注意，在使用 RDB 或 AOF 对数据库进行恢复时，RDB 和 AOF 文件可能会因为 Redis 实例所在服务器宕机，而未能完整保存，进而会影响到数据库恢复
  - 因此针对这一问题，Redis 还实现了对这两类文件的检查功能，对应的代码文件分别是 redis-check-rdb.c 和 redis-check-aof.c
- 2--主从复制功能实现
  - Redis 把主从复制功能实现在了 replication.c 文件中
  - 另外还需要知道的是，Redis 的主从集群在进行恢复时，主要是依赖于哨兵机制，而这部分功能则直接实现在了 sentinel.c 文件中
  - 其次，与 Redis 实现高可靠性保证的功能类似，Redis 高可扩展性保证的功能，是通过 Redis Cluster 来实现的，这部分代码也非常集中，就是在 cluster.h/cluster.c 代码文件中
  - 所以这样在学习 Redis Cluster 的设计与实现时，就会非常方便，不用在不同的文件之间来回跳转了
辅助功能
Redis 还实现了一些用于支持系统运维的辅助功能
比如，为了便于运维人员查看分析不同操作的延迟产生来源，Redis 在latency.h/latency.c 中实现了操作延迟监控的功能
为了便于运维人员查找运行过慢的操作命令，Redis 在 slowlog.h/slowlog.c 中实现了慢命令的记录功能，等等
此外，运维人员有时还需要了解 Redis 的性能表现，为了支持这一目标，Redis 实现了对系统进行性能评测的功能，这部分代码在 redis-benchmark.c 中