twemproxyRedis协议解析探索——剖析twemproxy代码正编

时间:2023-05-28 15:47:50

这篇文章会对twemproxyRedis协议解析代码部分进行一番简单的分析,同时给出twemproxy目前支持的所有Redis命令。在这篇文章开始前,我想大家去简单地理解一下有限状态机,当然不理解也是没有问题的,有限状态机仅仅能帮助我们更好地理解twemproxyRedis协议解析代码部分。

redis 协议

这边我们首先需要简单介绍一下redis协议。参考自https://redis.io/topics/protocol

redis协议即RESP 的数据类型有5类,简单字符串、错误、整数、大字符串以及数组

每一行RESP都以"\r\n" (CRLF)结尾,每一种数据类型都有一个唯一的标识符作为开头,。

这里假设 [string(len)]为长度为len的字符长度,[string]为长度为任意的的字符长度,[int]为整数

简单字符串

这种数据类型往往表示一种正确的信息,其标识符为+,格式为

+[string]\r\n

如对于一个操作类命令操作成功的回复是

+OK\r\n

错误

这种数据类型往往表示一种错误的信息, 其标识符为-,格式为

-[string]\r\n

如对于一个操作类命令操作错误的回复可能是

-ERR unknown command 'foobar'\r\n

整数

这种数据类型往往表示一个整数, 其标识符为:,格式为

:[int]\r\n

如对于一些数据类命令的回复可能是

:1000\r\n

大字符串

这种数据类型往往表示一个有长度len信息的字符串, 其标识符为$,格式为 :

$len\r\n

[string(len)]\r\n

如对于一个命令set的包就是

3\r\n

set\r\n

数组

这种数据类型往往数量为k信息所有类型混合的数据,并不一定要同一类型, 其标识符为*,格式为 :

*k\r\n

k个[简单字符串、错误、整数、大字符串或数组]

如对于一个命令

set skey value

的包就是 :

*3\r\n

$3\r\n

set\r\n

$4\r\n

skey\r\n

$5\r\n

value\r\n

如回复包

*2\r\n
*3\r\n
:1\r\n
:2\r\n
:3\r\n
*2\r\n
+Foo\r\n
-Bar\r\n

redis请求包解析

在proto/nc_redis.c中的redis_parse_req函数解析了redis请求包

redis请求包有限状态机的符号图如下图所示:

twemproxyRedis协议解析探索——剖析twemproxy代码正编

redis请求包符号表转化图

写成正式格式的set skey value一样的是*3\r\n$3\r\nset\r\n$4\r\nskey\r\n$5\r\nvalue\r\n。对于这个set命令就是以SW_REQ_TYPE(set),SW_KEY(skey ),SW_ARG1(value)组成的,redis命令的基本的组成如下:SW_REQ_TYPE SW_KEY [SW_ARG1] [SW_ARG2] [SW_ARG3] ... [SW_ARGN]([]里的可以出现或者不出现,视SW_REQ_TYPE 的类型所示),SW_KEY 可以是是多个。

如果是只有SW_KEY 的是满足函数redis_argx的命令,带有SW_ARG1的是满足函数redis_arg1以及redis_argkvx的命令,带有SW_ARG2的是满足函数redis_arg2的命令,带有满足SW_ARG3的是函数redis_arg3的命令,带有SW_ARGN的是满足函数redis_argn以及redis_argeval的命令,为此我们可以画出代码state之间的转化关系

    enum {
SW_START,
SW_NARG,
SW_NARG_LF,
SW_REQ_TYPE_LEN,
SW_REQ_TYPE_LEN_LF,
SW_REQ_TYPE,
SW_REQ_TYPE_LF,
SW_KEY_LEN,
SW_KEY_LEN_LF,
SW_KEY,
SW_KEY_LF,
SW_ARG1_LEN,
SW_ARG1_LEN_LF,
SW_ARG1,
SW_ARG1_LF,
SW_ARG2_LEN,
SW_ARG2_LEN_LF,
SW_ARG2,
SW_ARG2_LF,
SW_ARG3_LEN,
SW_ARG3_LEN_LF,
SW_ARG3,
SW_ARG3_LF,
SW_ARGN_LEN,
SW_ARGN_LEN_LF,
SW_ARGN,
SW_ARGN_LF,
SW_SENTINEL
} state;

twemproxyRedis协议解析探索——剖析twemproxy代码正编

redis请求包状态转化图

通过这种方式twemproxy解析了redis的请求包,首先解析了每个包的类型,然后将每一个key的开始、结束指针记录到相应的包中,用来完成切片操作。这种有限状态机的方式不仅比正则表达式解析速度快,而且代码较为清晰。

redis回复包解析

在proto/nc_redis.c中的redis_parse_rsp函数解析了redis请求包

这里用过符号区分了redis协议的回复包类型,这里的符号的意思就是指在上面《redis协议》章节中提到的符号

SW_STATUS是简单字符串

SW_ERROR是错误

SW_INTEGER是整数

SW_BULK是大字符串

SW_MULTIBULK是数组

下面是redis协议的解析状态:

    enum {
SW_START,
SW_STATUS,
SW_ERROR,
SW_INTEGER,
SW_INTEGER_START,
SW_SIMPLE,
SW_BULK,
SW_BULK_LF,
SW_BULK_ARG,
SW_BULK_ARG_LF,
SW_MULTIBULK,
SW_MULTIBULK_NARG_LF,
SW_MULTIBULK_ARGN_LEN,
SW_MULTIBULK_ARGN_LEN_LF,
SW_MULTIBULK_ARGN,
SW_MULTIBULK_ARGN_LF,
SW_RUNTO_CRLF,
SW_ALMOST_DONE,
SW_SENTINEL
} state;

twemproxyRedis协议解析探索——剖析twemproxy代码正编

redis回复包状态转化图

在这幅redis回复包状态转化图中(每个状态下面的条件,就是进入该状态的条件),通过这些,我们可以解析回复包。如:

*2\r\n

*2\r\n
+Foo\r\n
-Bar\r\n

对于

*2\r\n

遇到*那么进入SW_MULTIBULK,接着遇到'\r',

进入SW_MULTIBULK_NARG_LR,继而进入SW_MULTIBULK_ARGN_LEN

对于

*3\r\n
:1\r\n
:2\r\n
:3\r\n

先遇到*再次进入SW_MULTIBULK,

接着遇到'\r',进入SW_MULTIBULK_NARG_LR,继而进入SW_MULTIBULK_ARGN_LEN

然后就是进入SW_SLMPLE,最后就是一直在SW_SLMPLE和SW_MULTIBULK_ARGN_LEN状态转化,

对于

*2\r\n
+Foo\r\n
-Bar\r\n

也是同样的,与上面那块解析过程相同。

当然这里的命令仅仅是个例子,可能不符合redis协议要求。仅仅能帮助我们更好的理解。

补充

关于mbuf的解析过程看完代码之后,msg中的mbuf仅仅是到达合适大小之后的分出新的mbuf,这就是msg_repair的功能

总结

在上述章节中,我们了解了redis的协议,以及twemproxy对redis请求包和回复包的解析过程,利用有限状态机的模型来去熟悉解析过程,下面我们会探索msg_send的过程。

另外,对于博文有问题的请大家在评论中留言与博主讨论,博主会及时回复的!!!!