RLP

时间:2023-11-22 16:54:44

** 原创勿转 **

这是在看devp2p时看到的,英文原文地址:https://github.com/ethereum/wiki/wiki/RLP

RLP:  Recursive Length Prefix,中文直译“递归长度前缀”(很别扭有没有,不管叫什么,它就在那里)。 实际上就是一种数据编码方式,类似Base64之类的。

一.    推荐的两种编码形式
   . 使用[[k1,vv1],[k2,v2]...],  其中k1,k2,... 是字典顺序
   . 使用Patricia Tree, 以太坊中使用这种方式

二. 编码函数需要一个数据项(item)

     对于item的定义:
     . 串(比如字节数组,  golang: []byte{}, java: byte[])是一个item
     . item列表也是一个item

     例:空string, 空列表[], "cat",  列表["cat", ["puppy", "cow"], "horse", [[]], "pig", [""], "sheep"]
    
     在原文中, string并不是一个字符串,是"a certain number of bytes of binary data"的同义词, 即某个特定长度的二进制数据, 对于具体的数据,长度是固定的。

可以理解为字节数组, 而不仅仅是字符串。

三. 具体的编码过程

其中第一个字节是特殊的,以byte0表示, byte0 按其值将[0x00,0xff]划分为5个部分:   [0x00,0x7f],   [0x80,0xb7],   [0xb8, 0xbf],   [0xc0, 0xf7],   [0xf8, 0xff]
 
  *** 这里的方括号表示区间, 同时编码结果也用方括号表示,比如[0x83, 'c','a','t'], 注意区分。
 
  1.  单字节
       单字节值的取值范围在[0x00, 0x7f]之间的数据,编码等于这个字节
       生成数据的格式:[byte0], 所以 byte0的取值范围是[0x00, 0x7f]
       比如: "A", 0x41, 编码就是[0x41]
       
       对于[0x80, 0xff]的单字节,适用下一条规则
      
  2.  0-55个字节的数据

这包括1里排除的[0x80, 0xff]单字节, 它的编码数据是这样产生的:
       编码格式:[byte0, 原始数据]
       byte 0 = 0x80 + 原始数据的长度, 所以byte0的取值范围就是0x80 + (0-55) = [0x80, 0x80+55] = [0x80, 0xb7]   (0x80= 128,0xb7=183)

比如:
          0x95,  长度为1, 那么byte0 = 0x80 + 1 = 0x81,  编码为[0x81, 0x95], 这个是1里排除的数据
          "cat",  长度为3,    那么byte0 = 0x80 + 3 = 0x83,  编码为[0x83, 'c', 'a', 't']
          string('null')  = 0x00 = [0x80 + 0(长度为0, 空格按1规则编码)] = [0x80]         
       
  3.  对于长度大于55的数据
       编码格式: [byte0, 长度(不一定几个字节), 原始数据]
       byte0 = 0xb7 + 长度占用的字节。 长度是整数, 比如15,那么它占用1个字节,说得绕一点,就是长度的长度
       长度:就是其二进制表示
       
       比如:长度为1024的数据, byte0 = 0xb7 + 2 (1024的十六进制表示为0x0400, 所以占用两个字节)  = 0xb9
       整个数据的编码就是[0xb9, 0x04, 0x00, 原始数据]
       
       长度既然是整数, 其在内存里最多占用8个字节, 所以byte0的取值范围:[0xb7 + (1-8)] = [0xb8, 0xbf]
       
 4.  对于列表来说

(对于列表,我的理解应该算是串的数组吧。)

如果它的每个数据都被编码过了,而整个列表的数据长度是0-55, 那么
      编码格式:[byte0,列表各项编码后的数据]
      byte0 = 0xc0 + 列表所有数据的长度,  那么byte0 = 0xc0 + (0-55) = [0xc0, 0xc0 + 55] = [0xc0, 0xf7]   (0xc0=192, 0xf7=247)
      
      比如:"cat" = [0x83,'c','a','t'],  "dog" = [0x83, 'd','o','g'],  这两个适用规则2
                byte0 = 0xc0 + 8("cat"和"dog"编码后的总长度)  = 0xc8
                ["cat", "dog"] = [0xc8,  0x83, 'c','a','t',  0x83, 'd','o','g']
                
5.  相对于规则4, 如果列表编码后数据总长度大于55
     编码格式: [byte0, 长度,列表各项编码后数据]
     byte0 = 0xf7 + 长度的长度, 所以byte0的取值范围:[0xf7 + (1-8)] = [0xf8, 0xff], 长度的长度取值是1个字节到8个字节

总的来说,对于超过55的长度, 要使用长度的长度。

解码是相反的过程,有时间再写吧。

相关文章