背景
redis缓存的字符串过大时会有问题。不超过10kb最好,最大不能超过1mb。
有几个配置缓存,上千个flink任务调用,每个任务5分钟命中一次,大小在5kb到6mb不等,因此需要压缩。
第一种,使用gzip
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
|
/**
* 使用gzip压缩字符串
*/
public static string compress(string str) {
if (str == null || str.length() == 0 ) {
return str;
}
bytearrayoutputstream out = new bytearrayoutputstream();
gzipoutputstream gzip = null ;
try {
gzip = new gzipoutputstream(out);
gzip.write(str.getbytes());
} catch (ioexception e) {
e.printstacktrace();
} finally {
if (gzip != null ) {
try {
gzip.close();
} catch (ioexception e) {
e.printstacktrace();
}
}
}
return new sun.misc.base64encoder().encode(out.tobytearray());
}
/**
* 使用gzip解压缩
*/
public static string uncompress(string compressedstr) {
if (compressedstr == null || compressedstr.length() == 0 ) {
return compressedstr;
}
bytearrayoutputstream out = new bytearrayoutputstream();
bytearrayinputstream in = null ;
gzipinputstream ginzip = null ;
byte [] compressed = null ;
string decompressed = null ;
try {
compressed = new sun.misc.base64decoder().decodebuffer(compressedstr);
in = new bytearrayinputstream(compressed);
ginzip = new gzipinputstream(in);
byte [] buffer = new byte [ 1024 ];
int offset = - 1 ;
while ((offset = ginzip.read(buffer)) != - 1 ) {
out.write(buffer, 0 , offset);
}
decompressed = out.tostring();
} catch (ioexception e) {
e.printstacktrace();
} finally {
if (ginzip != null ) {
try {
ginzip.close();
} catch (ioexception e) {
}
}
if (in != null ) {
try {
in.close();
} catch (ioexception e) {
}
}
if (out != null ) {
try {
out.close();
} catch (ioexception e) {
}
}
}
return decompressed;
}
|
第二种,使用zstd
1
2
3
4
5
6
|
<!-- https://mvnrepository.com/artifact/com.github.luben/zstd-jni -->
< dependency >
< groupid >com.github.luben</ groupid >
< artifactid >zstd-jni</ artifactid >
< version >1.4.5-6</ version >
</ dependency >
|
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
|
public class configcacheutil {
private static zstddictcompress compressdict;
private static zstddictdecompress decompressdict;
private static final integer level = 5 ;
public static void train() throws ioexception {
// 初始化词典对象
string dictcontent = fileutils.readfiletostring( new file( "/users/yangguang/vscode/text/cache.json" ),
standardcharsets.utf_8);
byte [] dictbytes = dictcontent.getbytes(standardcharsets.utf_8);
compressdict = new zstddictcompress(dictbytes, level);
decompressdict = new zstddictdecompress(dictbytes);
}
public static void main(string[] args) throws ioexception {
string read = fileutils.readfiletostring( new file( "/users/yangguang/vscode/text/cache.json" ));
configcacheutil.testgzip(read);
system.out.println( "" );
configcacheutil.test(read.getbytes());
system.out.println( "" );
configcacheutil.testbytrain(read.getbytes());
}
public static void testgzip(string str) {
logger.info( "初始数据: {}" , str.length());
// 压缩数据
long compressbegintime = system.currenttimemillis();
string compressed = configcacheutil.compress(str);
long compressendtime = system.currenttimemillis();
logger.info( "压缩耗时: {}" , compressendtime - compressbegintime);
logger.info( "数据大小: {}" , compressed.length());
// 解压数据
long decompressbegintime = system.currenttimemillis();
// 第 3 个参数不能小于解压后的字节数组的大小
string decompressed = configcacheutil.uncompress(compressed);
long decompressendtime = system.currenttimemillis();
logger.info( "解压耗时: {}" , decompressendtime - decompressbegintime);
logger.info( "数据大小: {}" , decompressed.length());
}
public static void test( byte [] bytes) {
logger.info( "初始数据: {}" , bytes.length);
// 压缩数据
long compressbegintime = system.currenttimemillis();
byte [] compressed = zstd.compress(bytes);
long compressendtime = system.currenttimemillis();
logger.info( "压缩耗时: {}" , compressendtime - compressbegintime);
logger.info( "数据大小: {}" , compressed.length);
// 解压数据
long decompressbegintime = system.currenttimemillis();
// 第 3 个参数不能小于解压后的字节数组的大小
byte [] decompressed = zstd.decompress(compressed, 20 * 1024 * 1024 * 8 );
long decompressendtime = system.currenttimemillis();
logger.info( "解压耗时: {}" , decompressendtime - decompressbegintime);
logger.info( "数据大小: {}" , decompressed.length);
}
public static void testbytrain( byte [] bytes) throws ioexception {
configcacheutil.train();
logger.info( "初始数据: {}" , bytes.length);
// 压缩数据
long compressbegintime = system.currenttimemillis();
byte [] compressed = zstd.compress(bytes, compressdict);
long compressendtime = system.currenttimemillis();
logger.info( "压缩耗时: {}" , compressendtime - compressbegintime);
logger.info( "数据大小: {}" , compressed.length);
// 解压数据
long decompressbegintime = system.currenttimemillis();
// 第 3 个参数不能小于解压后的字节数组的大小
byte [] decompressed = zstd.decompress(compressed, decompressdict, 20 * 1024 * 1024 * 8 );
long decompressendtime = system.currenttimemillis();
logger.info( "解压耗时: {}" , decompressendtime - decompressbegintime);
logger.info( "数据大小: {}" , decompressed.length);
compressdict.tostring();
}
}
|
输出
5kb
2020-09-08 22:42:48 info configcacheutil:157 - 初始数据: 5541
2020-09-08 22:42:48 info configcacheutil:163 - 压缩耗时: 2
2020-09-08 22:42:48 info configcacheutil:164 - 数据大小: 1236
2020-09-08 22:42:48 info configcacheutil:171 - 解压耗时: 2
2020-09-08 22:42:48 info configcacheutil:172 - 数据大小: 55412020-09-08 22:42:48 info configcacheutil:176 - 初始数据: 5541
2020-09-08 22:42:48 info configcacheutil:182 - 压缩耗时: 523
2020-09-08 22:42:48 info configcacheutil:183 - 数据大小: 972
2020-09-08 22:42:48 info configcacheutil:190 - 解压耗时: 85
2020-09-08 22:42:48 info configcacheutil:191 - 数据大小: 55412020-09-08 22:42:48 info configcacheutil:196 - 初始数据: 5541
2020-09-08 22:42:48 info configcacheutil:202 - 压缩耗时: 1
2020-09-08 22:42:48 info configcacheutil:203 - 数据大小: 919
2020-09-08 22:42:48 info configcacheutil:210 - 解压耗时: 22
2020-09-08 22:42:48 info configcacheutil:211 - 数据大小: 5541
6mb
2020-09-08 22:44:06 info configcacheutil:158 - 初始数据: 5719269
2020-09-08 22:44:06 info configcacheutil:164 - 压缩耗时: 129
2020-09-08 22:44:06 info configcacheutil:165 - 数据大小: 330090
2020-09-08 22:44:06 info configcacheutil:172 - 解压耗时: 69
2020-09-08 22:44:06 info configcacheutil:173 - 数据大小: 57192692020-09-08 22:44:06 info configcacheutil:177 - 初始数据: 5874139
2020-09-08 22:44:06 info configcacheutil:183 - 压缩耗时: 265
2020-09-08 22:44:06 info configcacheutil:184 - 数据大小: 201722
2020-09-08 22:44:06 info configcacheutil:191 - 解压耗时: 81
2020-09-08 22:44:06 info configcacheutil:192 - 数据大小: 58741392020-09-08 22:44:06 info configcacheutil:197 - 初始数据: 5874139
2020-09-08 22:44:06 info configcacheutil:203 - 压缩耗时: 42
2020-09-08 22:44:06 info configcacheutil:204 - 数据大小: 115423
2020-09-08 22:44:07 info configcacheutil:211 - 解压耗时: 49
2020-09-08 22:44:07 info configcacheutil:212 - 数据大小: 5874139
redis 压缩列表
压缩列表(ziplist)是列表键和哈希键的底层实现之一。当一个列表键只包含少量列表项,并且每个列表项要么就是小整数值,要么就是长度比较短的字符串,redis就会使用压缩列表来做列表键的底层实现。
下面看一下压缩列表实现的列表键:
列表键里面包含的都是1、3、5、10086这样的小整数值,以及''hello''、''world''这样的短字符串。
再看一下压缩列表实现的哈希键:
压缩列表是redis为了节约内存而开发的,是一系列特殊编码的连续内存块组成的顺序型数据结构。
一个压缩列表可以包含任意多个节点,每个节点可以保存一个字节数组或者一个整数值。
看一下压缩列表的示例:
看一下包含五个节点的压缩列表:
节点的encoding属性记录了节点的content属性所保存数据的类型以及长度。
节点的content属性负责保存节点的值,节点值可以是一个字节数组或者整数,值的类型和长度由节点的encoding属性决定。
连锁更新:
每个节点的previous_entry_length属性都记录了前一个节点的长度,那么当前一个节点的长度从254以下变成254以上时,本节点的存储前一个节点的长度的previous_entry_length就需要从1字节变为5字节。
那么后面的节点的previous_entry_length属性也有可能更新。不过连锁更新的几率并不大。
总结:
以上为个人经验,希望能给大家一个参考,也希望大家多多支持服务器之家。
原文链接:https://blog.csdn.net/zimou5581/article/details/108478940