【作者】昼者,某省农信资深技术经理,经济学博士,高级经济师,银行从业17年,在全行数字化转型变革中,参与了科技发展规划、组织架构调整、管理流程设计和重大项目建设,为业务与科技的融合之路,进行了有益的探索。带领团队获得了10项发明专利和7项软件著作权,2项作为第一发明人,多次获得监管部门科技奖项。
引言
关键系统存储架构设计阶段,应重点关注存储类型、容量、组网及高可用容灾等关键点。在投产实施及运维管理阶段,需关注现网调研、实施窗口、数据迁移、回退方案、投产跟踪和常态化演练机制、日常运维机制、智能运维工具和健全运维生态等重点方面。
一、银行业关键系统对存储的需求场景及功能特点
一般来说,银行业按照应用系统重要等级可以分为核心、重要、外围及管理、数据分析等类别,其中核心及重要类系统通常称为“关键系统”。根据关键系统处理事物的特性,可以分为OLTP(联机事务处理过程)和OLAP(联机分析处理)等类别。联机事物处理方式、数据量大小、系统重要程度等差异均会对关键系统存储架构提出不同的需求。
二、关键系统存储架构的设计原则及关键点
1. 关键系统存储架构设计的原则
存储架构的设计既要满足未来业务发展需要,技术发展趋势,也要在总体技术风险可控的前提下,对现有架构进行平滑升级,解决当前架构瓶颈。关键系统所用存储架构的建设总体原则应根据不同应用对存储性能和容灾的诉求进行存储选型。按应用的业务重要性及对RPO、RTO不同要求,重新规划应用主机和存储对应关系,对应不同级别容灾方案。
需要注意的是,没有最好的存储技术,只有最适合的存储解决方案。因此,在存储架构方案设计时,需从行内实际情况出发,对标行业最佳实践,充分利用厂商资源,做好技术的延续性、做好架构、产品、性能、维护和费用之间的有效平衡。
2. 关键系统存储架构设计的关键点
2.1 存储类型
按照关键系统类别及特性选择集中式或分布式存储,可根据关键系统重要性、需求特点及性价比选择全闪、混闪及传统机械盘存储。
2.2 存储配置及容量
存储的单机配置决定着存储架构的整体性能。通常在存储架构规划时采用“高端低配”(高端机型、中低配置)策略进行存储选型,在保障技术先进、性能强大的同时,降低维护期因存储技术落后、性能不足而带来的优化和扩容等风险较大操作的频率,同时高端机型也能够得到原厂商更大售后服务支持。所替换的老旧存储可用于开发测试或外围类系统使用,保护既有投资。
容量规划方面,根据现网存储容量、历史增长率以及未来增长率等指标来综合评估。以存储池为单位,根据当前容量大小,将近3年最大年增长率作为未来5年年均增长率进行估算,在此基础上再预留20%-30%可用容量。
2.3 存储及应用组网
在满足技术先进性的前提下,保障技术选型稳定性和高可用性,确保存储网络架构稳健、保障业务系统性能。在实施过程中以数据完整性为核心保障体系,按计划完成容灾方案为目标,尽量减少业务系统影响,降低对业务系统的影响。
根据设备情况,从需求、容量、性能、可用性和管理性几个方面详细设计,重点考虑存储池类别、吞吐负载、关联耦合性,尤其需要提前规划交换机端口分配规则、Zone分配规则、跨数据中心级联设计。
2.4 高可用及容灾
存储架构是全行容灾方案的重要基础。存储架构方案的设计需要根据全行整体容灾建设思路,结合存储特性和业务特点统筹规划,以确保满足监管及全行所需RTO及RPO指标。在实际制定存储规划方案中,有以下方面需重点关注。
一是存储3DC架构的建设思路。存储3DC架构已是各大存储产品的标准功能架构,也是各行业容灾方案中均采用的成熟存储容灾解决方案。但在实际使用中,需根据各行现网容灾架构、数据中心间距离、空间、带宽质量、人员分布等因素综合考虑。
一般来说,存储3DC架构在物理地点设置上有两种方案,一是本地、同城和异地各一台存储,三者间形成3DC容灾架构(性价比较高、容灾整体架构较为灵活);二是本地(2台双活)和同城(1台)组成容灾架构(维护难度较小,可以最大程度应对本地主中心存储故障),架构图示例见图一。
二是各数据中心承载容灾功能的选择。在金融监管部门要求及传统银行容灾方案中,主中心、同城中心及异地中心根据所承载的容灾功能情况,可以分为“大同城、小异地”和“小同城、大异地”。以“大同城、小异地”为例,“大同城”指以双活模式构建两个同城数据中心,通过部署必要的软硬件设备,逐步实现既能两个中心共同承担业务,又能单个中心独立承载全部业务。“小异地”指建立异地灾备数据中心,在发生区域性灾难时,保障金融机构关键业务的持续运营。
三是存储网络组网。优化烟囱式架构,FC SAN网络采用core-edge架构,通过分层实现计算、存储资源池化,更利于向云化演进。存储池间数据互联互通,应用共享所有存储资源。SAN及应用组网架构图示例见图二。
四是高可用及容灾方案的选择。容灾体系规划应该从业务视角为出发点,以终为始的制定各类业务系统RTO和RPO,找准各容灾技术定位,通过各容灾技术组合做好备份冗余,按照业务类别和技术特性搭好容灾技术体系框架,做好容灾技术顶层设计。
图一:同城3DC存储容灾架构图
三、关键系统存储投产实施及运维管理
1. 关键系统存储投产实施的关键点
1.1 现网调研
对现网架构的服务器多路径、存储兼容性、数据量、网络带宽、可用窗口、影响范围等进行详细调研。针对现网应用系统及基础架构等差异,科学制定投产的方式、批次等投产实施方案。
1.2 实施窗口
由于迁移变更内容多,操作复杂,关键系统磁盘较多、操作时间较长,导致整个操作时间窗口有可能超出正常维护窗口时间。可以通过科学制定Runbook、操作指导书、操作命令、非影响业务的情况下提前开展、分阶段分批实施等措施,科学规划操作时间窗口。一般可根据各应用系统的业务逻辑、实施窗口、数据存储和存储类别等耦合程度,在实施风险可控前提下,规划实施阶段和批次。
1.3 数据迁移
数据迁移是存储新架构投产的关键步骤。在存储数据迁移中需重点关注数据一致性、业务完备性和系统兼容性。科学安排数据迁移策略,灵活使用数据迁移工具,通过迁移演练等多种措施,尽量减少停机窗口和停机对客户服务体验的影响。
由于数据迁移适用场景较多,业界积累了较为全面的数据迁移步骤,我行与存储厂商结合业界实践经验,将存储数据迁移工作进一步完善,总结为4个阶段,17个实施步骤。详见图三。
在实践中,存储数据迁移的对象、层级、场景和工具较多,具体参见表一。表二中以华为存储为例,列举了存储常用数据迁移工具。
|
||
|
||
1.4 回退方案
回退方案作为投产实施方案中的关键环节,必须确保投产出现风险时,完善的回退应急预案,保障回退期间业务不受影响。需提前准备并演练不同投产场景的主要回退步骤,将回退所需时间加入到投产计划窗口之中。下表以华为存储为例,列出了不同迁移场景的主要回退步骤。
回退场景 |
回退主要步骤 |
存储迁移回退 |
1、在华为存储上删除SmartMigration任务。 2、映射源存储的Lun给主机,主机上扫盘,切换IO路径到源存储磁盘路径。 3、删除华为存储和主机间的映射。 4、在华为存储上删除eDevLUN。 5、主机上删除华为存储对应的磁盘路径。 6、删除源存储到华为存储的映射。 7、主机上扫盘,并检查路径是否正常。 |
卷迁移回退 |
1、映射源存储Lun到主机。 2、主机扫盘,并添加源存储PV到VG。 3、创建mirrorvg,同步数据从华为存储到源存储。 4、同步完成后,删除mirror,并从VG中删除华为存储的PV。 5、系统中删除华为存储PV,然后系统扫盘。 6、检查业务,确保业务运行正常 |
虚拟化平台迁移回退 |
1、虚拟化平台会自动执行回退. 2、检查VM、系统和设备的运行状态,确保业务运行正常 |
表三:存储迁移回退场景及主要步骤
1.5 投产跟踪
2.1 常态化演练机制
|
|
|
|
|
|
|
|
||
|
|
|
||
|
|
|
||
|
|
|
表四:常态化应急演练计划(示例)
2.2 日常运维机制
|
1年24份 |
|||||
|
信息收集包 |
1年12份 |
||||
1年12份 |
2.3 智能运维工具
2.4 健全运维生态
关键系统存储作为银行机构的关键设备,在提升行内技术人员能力的同时,还需建立“原厂+三方”、“一线+后台”、“交付+研发”的立体式、全天候的支撑服务体系。