高可用集群的灰度升级

时间:2021-01-03 00:46:08

1. 概述

用传统方式升级集群版本,通常需要先把全部节点关闭,然后一次性把整个集群全部节点的版本升级为新版本。升级时,业务必须中断。灰度升级是指可以按节点逐一进行版本升级的方式,在单个节点升级为新版本,并确保其稳定运行后,再升级集群内的另一个节点,以此类推,直至整个集群内的所有节点完成升级。

升级过程中,系统一直保持在线,不会造成业务中断。这就要求集群部署方式必须是高可用的,即控制节点采用高可用部署,数据副本数至少为2,客户端采用高可用写入。

本教程讲述如何进行高可用集群的灰度升级(Gray Scale Upgrade),亦称为局部升级。

2. 版本兼容性

灰度升级,意味着内存中的数据格式,包括传输协议、序列化协议等需要完全兼容。

因此,对于版本跨度较大的升级,建议联系 DolphinDB 的技术支持工程师进行风险评估后再进行升级。

3. 升级步骤

本例中,需要将版本为 2.00.7.4 的高可用集群升级到 2.00.8.12 版本。

​controller.cfg​

mode=controller
localSite=10.10.11.2:8920:HActl44
dfsHAMode=Raft
dfsReplicationFactor=2
dfsReplicaReliabilityLevel=1
dataSync=1
workerNum=4
localExecutors=3
maxConnections=512
maxMemSize=8
lanCluster=0
dfsRecoveryWaitTime=30000

​cluster.nodes​

localSite,mode
10.10.11.1:8920:HActl43,controller
10.10.11.2:8920:HActl44,controller
10.10.11.3:8920:HActl45,controller
10.10.11.1:8921:agent43,agent
10.10.11.2:8921:agent44,agent
10.10.11.3:8921:agent45,agent
10.10.11.1:8922:node43,datanode
10.10.11.2:8922:node44,datanode
10.10.11.3:8922:node45,datanode

​pnodeRun(version)​

node  value
0 node43 2.00.7.4 2022.12.08
1 node44 2.00.7.4 2022.12.08
2 node45 2.00.7.4 2022.12.08

DolphinDB 中现有数据库 ​​dfs://stock​​,库中有分布式表 ​​stock​​。

db = database("dfs://stock",VALUE,2023.01.01..2023.01.10,,'TSDB')
tmp = table(1:0,[`time,`name,`id],[TIMESTAMP,SYMBOL,INT])
pt = db.createPartitionedTable(tmp,`stock,`time,,`name,ALL)

执行升级过程中,Python API 始终以高可用的方式向 DFS 表中写入数据。

import dolphindb as ddb
import pandas as pd
import datetime
import time
import random
s = ddb.session()
sites = ["192.168.100.43:8922","192.168.100.44:8922","192.168.100.45:8922"]
s.connect(host="192.168.100.43",port=8922,user,password="123456", highAvailability=True, highAvailabilitySites=sites)
appender = ddb.tableAppender(dbPath="dfs://stock",tableName='stock',ddbSession=s,action="fitColumnType")
x = ['Apple','Microsoft','Meta','Google','Amazon']
i = 1
while i<=10000000:
now = datetime.datetime.now()
name = random.sample(x,1)
data = pd.DataFrame({'time':now,'name':name,'id':i})
appender.append(data)
print(i)
i = i+1
time.sleep(1)

如果升级后验证 DFS 表 ​​stock​​ 中的 ​​time​​ 字段延续至当前,且 ​​id​​ 字段是连续正整数,说明升级过程中写入未被中断;否则,说明受到了停机影响。

3.1 升级准备

第一步,执行以下脚本检查分区状态是否正常,返回为空,即所有副本状态正常。只有在分区状态不处于 RECOVERING 状态下才可进行后续步骤。

select * from rpc(getControllerAlias(), getClusterChunksStatus) where state != "COMPLETE"

第二步,执行以下脚本获取元数据文件的存储目录。

pnodeRun(getConfig{`chunkMetaDir})`

node value
0 node44 /home/zjchen/HA/server/clusterDemo/data/node44/storage
1 node45 /home/zjchen/HA/server/clusterDemo/data/node45/storage
2 node43 /home/zjchen/HA/server/clusterDemo/data/node43/storage

rpc(getControllerAlias(),getConfig{`dfsMetaDir})`

string('/home/zjchen/HA/server/clusterDemo/data/HActl44/dfsMeta')

3.2 节点升级

第一步,关闭 10.10.11.1 服务器上的所有节点,包括 controller、agent、datanode。

cd /home/zjchen/HA/server/clusterDemo/
sh stopAllNodes.sh

第二步,备份元数据。


  • 备份控制节点元数据
cd /home/zjchen/HA/server/clusterDemo/data/node43/storage/
cp -r CHUNK_METADATA/ CHUNK_METADATA_BAK/
  • 备份数据节点元数据
cd /home/zjchen/HA/server/clusterDemo/data/HActl44/
cp -r dfsMeta/ dfsMeta_bak/

第三步,进行DolphinDB 版本升级。

cd /home/zjchen/HA/server/clusterDemo/
sh upgrade.sh

预期结果:

DolphinDB package uploaded successfully!  UpLoadSuccess
DolphinDB package unzipped successfully! UnzipSuccess
DolphinDB upgraded successfully! UpgradeSuccess

第四步,重启 controller、agent、datanode,并验证 DFS 表 ​​stock​​ 的 ​​time​​ 和 ​​id​​ 字段是否符合预期。

先后对 10.10.11.2 和 10.10.11.3 两台机器上的节点执行 3.1 和 3.2 中的操作。

注意:当一台机器的节点升级结束并重启后,要确保分区状态没有处于 RECOVERING 状态才可以继续进行下一台机器节点的升级。

3.3 验证

使用以下命令进行升级后的验证:

​pnodeRun(version)​

node  value
0 node44 2.00.8.12 2023.01.10
1 node45 2.00.8.12 2023.01.10
2 node43 2.00.8.12 2023.01.10