银行专家分享:生产关键系统存储建设落地实践

时间:2022-12-12 10:08:14

【摘要】存储架构升级的关键在于平稳投产落地。关键系统作为企业IT系统中,重要程度最高、范围涉及最广、业务数据最多、场景差异最大的应用系统类别,对存储架构的设计及落地带来了较大的挑战。本文通过阐述银行业关键系统存储架构的应用场景、设计原则、投产实施及运维管理等重点内容,让读者对银行业关键系统存储的落地实践情况有所了解。

【作者】昼者,某省农信资深技术经理,经济学博士,高级经济师,银行从业17年,在全行数字化转型变革中,参与了科技发展规划、组织架构调整、管理流程设计和重大项目建设,为业务与科技的融合之路,进行了有益的探索。带领团队获得了10项发明专利和7项软件著作权,2项作为第一发明人,多次获得监管部门科技奖项。

引言

存储架构升级的关键在于平稳投产落地。没有最好的存储技术,只有最适合的存储解决方案。在存储架构方案设计时,需从行内实际情况出发,对标行业最佳实践,充分利用厂商资源,做好技术的延续性、做好架构、产品、性能、维护和费用之间的有效平衡。

关键系统存储架构设计阶段,应重点关注存储类型、容量、组网及高可用容灾等关键点。在投产实施及运维管理阶段,需关注现网调研、实施窗口、数据迁移、回退方案、投产跟踪和常态化演练机制、日常运维机制、智能运维工具和健全运维生态等重点方面。


一、银行业关键系统对存储的需求场景及功能特点

一般来说,银行业按照应用系统重要等级可以分为核心、重要、外围及管理、数据分析等类别,其中核心及重要类系统通常称为“关键系统”。根据关键系统处理事物的特性,可以分为OLTP(联机事务处理过程)和OLAP(联机分析处理)等类别。联机事物处理方式、数据量大小、系统重要程度等差异均会对关键系统存储架构提出不同的需求。


二、关键系统存储架构的设计原则及关键点

1. 关键系统存储架构设计的原则

存储架构的设计既要满足未来业务发展需要,技术发展趋势,也要在总体技术风险可控的前提下,对现有架构进行平滑升级,解决当前架构瓶颈。关键系统所用存储架构的建设总体原则应根据不同应用对存储性能和容灾的诉求进行存储选型。按应用的业务重要性及对RPO、RTO不同要求,重新规划应用主机和存储对应关系,对应不同级别容灾方案。

需要注意的是,没有最好的存储技术,只有最适合的存储解决方案。因此,在存储架构方案设计时,需从行内实际情况出发,对标行业最佳实践,充分利用厂商资源,做好技术的延续性、做好架构、产品、性能、维护和费用之间的有效平衡。

2. 关键系统存储架构设计的关键点

2.1 存储类型

按照关键系统类别及特性选择集中式或分布式存储,可根据关键系统重要性、需求特点及性价比选择全闪、混闪及传统机械盘存储。

2.2 存储配置及容量

存储的单机配置决定着存储架构的整体性能。通常在存储架构规划时采用“高端低配”(高端机型、中低配置)策略进行存储选型,在保障技术先进、性能强大的同时,降低维护期因存储技术落后、性能不足而带来的优化和扩容等风险较大操作的频率,同时高端机型也能够得到原厂商更大售后服务支持。所替换的老旧存储可用于开发测试或外围类系统使用,保护既有投资。

容量规划方面,根据现网存储容量、历史增长率以及未来增长率等指标来综合评估。以存储池为单位,根据当前容量大小,将近3年最大年增长率作为未来5年年均增长率进行估算,在此基础上再预留20%-30%可用容量。

2.3 存储及应用组网

在满足技术先进性的前提下,保障技术选型稳定性和高可用性,确保存储网络架构稳健、保障业务系统性能。在实施过程中以数据完整性为核心保障体系,按计划完成容灾方案为目标,尽量减少业务系统影响,降低对业务系统的影响。

根据设备情况,从需求、容量、性能、可用性和管理性几个方面详细设计,重点考虑存储池类别、吞吐负载、关联耦合性,尤其需要提前规划交换机端口分配规则、Zone分配规则、跨数据中心级联设计。

2.4 高可用及容灾

存储架构是全行容灾方案的重要基础。存储架构方案的设计需要根据全行整体容灾建设思路,结合存储特性和业务特点统筹规划,以确保满足监管及全行所需RTO及RPO指标。在实际制定存储规划方案中,有以下方面需重点关注。

一是存储3DC架构的建设思路。存储3DC架构已是各大存储产品的标准功能架构,也是各行业容灾方案中均采用的成熟存储容灾解决方案。但在实际使用中,需根据各行现网容灾架构、数据中心间距离、空间、带宽质量、人员分布等因素综合考虑。

一般来说,存储3DC架构在物理地点设置上有两种方案,一是本地、同城和异地各一台存储,三者间形成3DC容灾架构(性价比较高、容灾整体架构较为灵活);二是本地(2台双活)和同城(1台)组成容灾架构(维护难度较小,可以最大程度应对本地主中心存储故障),架构图示例见图一。

二是各数据中心承载容灾功能的选择。在金融监管部门要求及传统银行容灾方案中,主中心、同城中心及异地中心根据所承载的容灾功能情况,可以分为“大同城、小异地”和“小同城、大异地”。以“大同城、小异地”为例,“大同城”指以双活模式构建两个同城数据中心,通过部署必要的软硬件设备,逐步实现既能两个中心共同承担业务,又能单个中心独立承载全部业务。“小异地”指建立异地灾备数据中心,在发生区域性灾难时,保障金融机构关键业务的持续运营。

三是存储网络组网。优化烟囱式架构,FC SAN网络采用core-edge架构,通过分层实现计算、存储资源池化,更利于向云化演进。存储池间数据互联互通,应用共享所有存储资源。SAN及应用组网架构图示例见图二。

四是高可用及容灾方案的选择。容灾体系规划应该从业务视角为出发点,以终为始的制定各类业务系统RTO和RPO,找准各容灾技术定位,通过各容灾技术组合做好备份冗余,按照业务类别和技术特性搭好容灾技术体系框架,做好容灾技术顶层设计。

银行专家分享:生产关键系统存储建设落地实践

图一:同城3DC存储容灾架构图

银行专家分享:生产关键系统存储建设落地实践
图二:SAN及应用组网架构图

三、关键系统存储投产实施及运维管理

1. 关键系统存储投产实施的关键点

1.1 现网调研

对现网架构的服务器多路径、存储兼容性、数据量、网络带宽、可用窗口、影响范围等进行详细调研。针对现网应用系统及基础架构等差异,科学制定投产的方式、批次等投产实施方案。

1.2 实施窗口

由于迁移变更内容多,操作复杂,关键系统磁盘较多、操作时间较长,导致整个操作时间窗口有可能超出正常维护窗口时间。可以通过科学制定Runbook、操作指导书、操作命令、非影响业务的情况下提前开展、分阶段分批实施等措施,科学规划操作时间窗口。一般可根据各应用系统的业务逻辑、实施窗口、数据存储和存储类别等耦合程度,在实施风险可控前提下,规划实施阶段和批次。

1.3 数据迁移

数据迁移是存储新架构投产的关键步骤。在存储数据迁移中需重点关注数据一致性、业务完备性和系统兼容性。科学安排数据迁移策略,灵活使用数据迁移工具,通过迁移演练等多种措施,尽量减少停机窗口和停机对客户服务体验的影响。

由于数据迁移适用场景较多,业界积累了较为全面的数据迁移步骤,我行与存储厂商结合业界实践经验,将存储数据迁移工作进一步完善,总结为4个阶段,17个实施步骤。详见图三。

银行专家分享:生产关键系统存储建设落地实践
图三:存储数据迁移步骤

在实践中,存储数据迁移的对象、层级、场景和工具较多,具体参见表一。表二中以华为存储为例,列举了存储常用数据迁移工具。

迁移对象
逻辑层级
技术场景
虚拟化平台
服务器虚拟层
VMware、FusionSphere、Hyper-V、PowerVM
文件系统
文件系统层
CIFS、NFS
逻辑卷
逻辑卷管理层
AIX LVM、HPUX LVM、Linux LVM、Windows LDM
Solaris SVM、Oracle ASM
SAN/NAS存储
存储网络层
华为、EMC、IBM、HP、NETAPP、HDS、Fujitsu

表一:存储数据迁移场景

迁移层级分类
建议迁移方案
华为存储解决方案
基于主机的迁移
数据库
Oracle RMAN/DG第三方工具、DSG
虚拟机
基于虚拟机软件的迁移功能(VMware/Hyper-V/Xenserver)
基于文件系统的迁移
NAS文件系统迁移
Robocopy/Rsync
MigrationDirector for NAS
基于卷管理软件的迁移
逻辑卷数据镜像
Host LVM、Veritas VxVM
基于同构存储的迁移
迁移工具
MigrationDirector同构迁移工具
基于网络功能的迁移
基于存储网络
Smartvirtualization+SmartMigration
基于SAN迁移工具
MigrationDirector异构迁移工具
基于存储特性的迁移
基于存储数据拷贝
HyperMetro/HyperReplication

表二:存储常用数据迁移工具(以华为存储为例)

1.4 回退方案

回退方案作为投产实施方案中的关键环节,必须确保投产出现风险时,完善的回退应急预案,保障回退期间业务不受影响。需提前准备并演练不同投产场景的主要回退步骤,将回退所需时间加入到投产计划窗口之中。下表以华为存储为例,列出了不同迁移场景的主要回退步骤。

回退场景

回退主要步骤

存储迁移回退

1、在华为存储上删除SmartMigration任务。

2、映射源存储的Lun给主机,主机上扫盘,切换IO路径到源存储磁盘路径。

3、删除华为存储和主机间的映射。

4、在华为存储上删除eDevLUN。

5、主机上删除华为存储对应的磁盘路径。

6、删除源存储到华为存储的映射。

7、主机上扫盘,并检查路径是否正常。

卷迁移回退

1、映射源存储Lun到主机。

2、主机扫盘,并添加源存储PV到VG。

3、创建mirrorvg,同步数据从华为存储到源存储。

4、同步完成后,删除mirror,并从VG中删除华为存储的PV。

5、系统中删除华为存储PV,然后系统扫盘。

6、检查业务,确保业务运行正常

虚拟化平台迁移回退

1、虚拟化平台会自动执行回退.

2、检查VM、系统和设备的运行状态,确保业务运行正常

表三:存储迁移回退场景及主要步骤

1.5 投产跟踪

主要对整体存储架构及应用系统的功能及性能进行跟踪,验证投产工作的实际成效。针对发现的故障及时进行分析,并评估采用基于投产架构环境进行解决、整体回退或部分回退等方案保障生产系统安全稳定运营。
2. 关键系统存储运维管理的关键点

2.1 常态化演练机制

常态化演练是检验灾备体系可用性、准确性和时效性的关键手段。把应急演练纳入常态化轨道,开展经常性的、针对性的应急演练工作,才能充分保证灾备机制的有效性,检验灾备流程的可操作性,不断完善灾备体系建设,持续提升灾备演练的实战能力。一般按照监管要求、业务特点和管理需要,制定常态化(年度或一个周期)演练计划。存储架构作为企业整体容灾体系的重要基础,一般依托应急演练计划开展常态化演练,如表四。

演练场景
演练范围
演练时间
演练内容
参与部门
单中心
切换
核心类
监管类
每年
4月-5月
系统演练:A生产中心内部主备机切换、存储切换、SAN光交切换、SLB负载切换及DNS切换等。
数据中心
运营服务部
电子银行中心
重要类
三年滚动全覆盖
省中心生产网市州生产网
同城波分链路
每年
7月-8月
网络线路及设备演练:省中心到地市生产网主备线路切换,地市到网点生产网主备线路切换,同城数据中心裸光纤切换。
数据中心
市州行科技部门
A机房电力
同城B机房电力
同城B机房暖通
每年
4月-5月
基础设施演练:机房电力系统进行A、B路及柴油机供电切换,暖通系统进行外机、内机、储冷罐切换。
数据中心
办公室
工程部
同城中心
切换
核心类
每年
7月-8月
A生产中心按业务系统分批切换至光谷同城中心。
数据中心
运营服务部
电子银行中心
重要类
三年滚动全覆盖
异地中心
切换
核心类
每年
9月
A生产中心核心和柜面业务整体切换至异地灾备中心。
数据中心
运营服务部

表四:常态化应急演练计划(示例)

2.2 日常运维机制

常态运维机制一般包括常态巡检机制(告警检查、硬软件状态等)和性能分析机制(历史性能数据分析、容量预测、瓶颈预测及优化等)。日常运维机制策略如表五。

机制名称
子项
周期
特点
输入
输出
产物数量
常态巡检机制
健康评估
半月度
①结合SmartKit定时任务,利用eService云运维中心分析,可以在线静态查看核心存储健康状态,同时自动产出评估报告Word;
②由平台产出比人工编写更为全面的评估报告,包括告警检查、增值特性、硬软件状态等。同时也能将信息同步至研发。
巡检包
健康评估报告
1月2份
1年24份
洞察分析
月度
能够使客户更能感知到云运维系统的优势,产出的PPT不仅涉及健康状态,对存储的容量、版本以及特性也会进行评估,挖掘运营机会点。
同时也能将信息同步至研发。
巡检包
信息收集包
洞察分析报告
1月1份
1年12份
性能分析机制
月度
集中体现存储工程师的服务价值,一是报告模板由工程师设计,二是工程师利用eService初步解析出的性能数据搭建简易分析数据库,三是利用工程师的专业判断,产出性能分析报告。
历史性能数据包
核心存储性能分析报告
1月1份
1年12份

表五:关键存储日常运维机制

2.3 智能运维工具

一般来说,存储厂商可以提供存储产品的监控及运维工具,也可使用第三方工具。智能运维工具的使用可以大幅提高运维管理的准确性和效率。如华为DME所提供的存储智能预测分析(硬盘失效预测、容量趋势预测、性能潮汐分析、性能异常检测、性能瓶颈分析、设备健康评估)、报表展现、存储异构管理等功能。以及SmartKit、eService和SystemReporter等运维工具。
华为SmartKit为存储、服务器、云计算三大领域的产品提供了统一的服务工具平台。

银行专家分享:生产关键系统存储建设落地实践

运维团队运用SmartKit“定时任务”功能实现核心存储自动化巡检机制。

银行专家分享:生产关键系统存储建设落地实践

eService是华为IT产品的云端智能运维平台,覆盖存储、服务器、云计算三大领域产品。提供存储智能预测分析(硬盘失效预测、容量趋势预测、性能潮汐分析、性能异常检测、性能瓶颈分析、设备健康评估),eService主动式问题处理。Call Home服务(需联网),云上管理(需联网)。
限于我行数据中心外网隔离要求,日常由维护人员定期将存储运行数据脱机上传至云端。

银行专家分享:生产关键系统存储建设落地实践

SystemReporter是存储系统的性能监控软件,可以帮助用户更好地了解固态存储系统的性能状况与趋势。提供实时监控、历史监控、性能告警、报表定制和容量预测。

银行专家分享:生产关键系统存储建设落地实践

2.4 健全运维生态

关键系统存储作为银行机构的关键设备,在提升行内技术人员能力的同时,还需建立“原厂+三方”、“一线+后台”、“交付+研发”的立体式、全天候的支撑服务体系。


五、结语

本文基于银行业关键系统存储需求场景,结合行业经验,对银行业关键系统存储架构设计原则和关键点、投产实施和运维管理等重点内容进行了研究和总结。介绍银行业关键系统类别和存储使用场景,分析了关键系统存储架构设计的存储类型、容量、组网及高可用容灾等关键点,总结了在投产实施及运维管理中需关注的现网调研、实施窗口、数据迁移、回退方案、投产跟踪和常态化演练机制、日常运维机制、智能运维工具和健全运维生态等重点方面,希望能让读者对银行业关键系统存储实施落地的行业经验有所了解和参考。