某银行总行数据中心私有云平台2.0建设

时间:2022-05-01 01:03:55

某行数据中心私有云平台一期建设后投入使用。但在使用过程中遇到了诸多实际问题:审批流程不贴合实际情况、自动化程度较低、云平台无法与CMDB联动、裸金属纳管等。本文对问题根源进行了探讨,并分享了通对过资源管理模式、审批流程、资源部署、微服务部署等方面进行优化解决问题的实践经验,供大家参考。

一、前言

2006年,亚马逊推出了AWS,正式拉开了全球云计算产业的大幕。发展到现在,云计算已经成为企业IT转型的核心驱动力。2017年中国人民银行印发《中国金融业信息技术“十三五”发展规划》,明确提出稳步推进云计算技术应用研究,支持实力较强的机构独立或者联合建设金融业云服务平台。随着我行业务的飞速发展,建立统一管理,高效响应,灵活部署的私有云环境已迫在眉睫。

二、私有云平台背景

为有效提升我行信息化建设水平,成为引领创新发展的“战略高地”,我部首次提出以IaaS层作为基础架构的私有云平台,统一纳管异构虚拟化平台、分布式存储、全闪存储等资源,向上提供计算、存储资源、数据库和中间件等软件的自助申请服务,实现多服务目录体系,同时提供计量计费、统计报表等功能。2019年完成总行数据中心私有云平台一期建设,并投入使用。但在使用过程中遇到了诸多实际问题。

主要问题如下:

审批流程不贴合实际情况

云平台审批流程与现有行内ITIL运维管理工具的审批流程割裂,各级参与人员需要重复登录不同平台完成申请、审批及操作工作;

云平台进行资源创建涉及到的变更操作实施与行内变更审批流程割裂。

自动化程度较低

资源创建需要手工选择安装所使用的的镜像;

安装软件需要手工选择调用的自动化运维编排名称,填写参数。

云平台无法与CMDB联动

云平台的操作系统、软件列表不能跟CMDB中维护的版本联动;

云主机物理机配置信息均需要手工填写,无法自动获取。

裸金属纳管

云平台无法申请裸金属类型资源;

物理资源管理方式较为传统未能与云平台特性结合。

三、问题分析

根据上述实践中的问题,深究其根源,无非是两点。其一是云厂商现有的功能虽然完备,但是银行IT有着较大的存量IT资源与管理系统,云平台功能无法取代或直接适配现有的复杂且多样的管理系统,直接在行内落地生根。其二是云平台的灵活性,便捷性先天便与银行IT的逻辑复杂、严谨性强的审批流程相悖。私有云在银行IT落地,从技术和理念方面,均存在巨大的考验。

探讨此问题前,首先我们先来分析一下云计算的概念。共享和敏捷是互联网时代下企业信息化建设的最大转变。云计算则以其对软硬件资源统一管控、服务化的资源快速供给等特性为企业信息化建设提供重要平台。消费者无须关心底层的IT技术,仅需要选择所需的服务来实现业务目标即可。而云管平台实际上是一种资源服务的全生命周期管理平台,它的本质是“资源服务”的提供者,通过多样化的服务目录,固化的编排参数,标准化的审批流程,在业务需求和IT资源之间建立起桥梁。由于银行行业的特殊需求,云管在银行落地时就需要与云化资源层分开来处理,对于云化资源层,运维部门要投入技术和人员来保证架构鲁棒性,保障基础环境的正常,稳定运行。而云管要做的更多的是跟行内各种各样的平台进行对接,以便实现统一管理,提供更多的服务和更高程度的自动化。

某银行总行数据中心私有云平台2.0建设

四、私有云平台2.0建设实践

1、打造云化资源管理模式

私有云平台1.0时代为了最大限度与现有流程贴合,未启用云平台自带的审批功能。全套审批流程使用ITIL管理系统中的虚拟机、物理机上架审批流程。此流程为前私有云时代申请虚拟机、物理机的流程,已使用多年,仅仅包含满足上架的基本功能。若干年前,业务需求还比较温和,一个上架流程对应一台设备也比较合理。而如今业务需求比暴风雨来的更猛烈,一个业务系统上线几十台物理机、虚拟机已经家常便饭了。几十台设备就对应几十个审批流程,这导致所有的流程参与者都疲于机械的审批操作。管中窥豹,可见一斑。原有的流程已经完全不能满足我行迅猛的业务发展速度。在私有云平台2.0中,我把原有的流程升级成了三个流程平面:设备入库、设备上架、资源申请。

某银行总行数据中心私有云平台2.0建设

设备入库 :新设备采购后,由中标代理商将设备的硬件信息,例如型号、序列号、高度、功率、CPU、内存、硬盘等基础信息统一录入标准的EXCEL表中。设备发货同时,代理商提供EXCEL表,并由专人导入ITIL系统中作为库存设备。

设备上架 :设备上架管理员在ITIL中提交设备上架申请,填写设备信息时无需填写设备基础信息,只需从库存中选择要上架的设备,补充其他必要信息即可。设备上架也告别了之前烟筒式的管理。批量上架后纳入统一的云化资源池集中管理。

资源申请 :资源申请流程分为虚拟机资源申请和物理服务器资源申请,是原上架流程申请入口的升级版。作为私有云平台提供的重要的两项服务,与ITIL进行对接后,将入口放在了ITIL管理平台中,采用单点登录的方式调用云平台的申请页面。审批流程仍然放在ITIL中进行,与现有审批流程相契合,普通用户无需在两个平台间进行相互切换。而且在开发过程中,我们对资源申请页面每一处细节进行了非常细致的调整、优化,让用户能以最简便的操作方式,最少的填写输入进行申请。

某银行总行数据中心私有云平台2.0建设

2、审批流与技术流相结合

在私有云平台1.0中服务器和虚拟机上架审批流程在ITIL中进行。实际操作时需要先提交上架申请,上架流程审批通过后。云主机管理员在实际操作前需要提交变更申请手动与上架流程相关联。变更审批完成之后,云主机管理员可以去生产环境按ITIL中提交的需求进行施工操作。施工时也需要参照ITIL中的需求手工填写云主机的配置信息,若安装软件还需手工选择所需要调用的自动化运维编排。云主机管理员需要进行多次关联及需求转换操作,操作较为繁琐且易出错。

在私有云平台2.0中,我们将审批流程与技术流程贯通,简化了繁琐的日常操作。首先我们针对流程中涉及到的变更例如上架变更、资源施工变更、堡垒机纳管变更等进行了梳理,通过对变更进行分类及设定变更角色等方式实现流程自动发起变更至相应处理人员,免去了人工提出、关联变更的复杂流程;其次,变更审批后自动触发云平台按申请单生成待施工订单,包含云平台IAAS资源施工及自动化运维编排。此外,云平台2.0及ITIL管理平台与网络的IP管理工具进行了深度对接,在ITIL上架流程中添加了物理机IP申请模块,在云平台云资源申请中添加了虚拟机IP申请以及负载均衡虚拟IP申请两个模块。通过选定网络区域、IP类型等字段并向IP管理工具传递参数,实现自助式IP申请及自动IP分配。值得一提的是通过在上架流程中的IP申请模块中附加了布线相关信息,可以实现将布线工单信息自动生成EXCEL表格并附加到变更申请单中,极大简化了日常工作。

某银行总行数据中心私有云平台2.0建设

3、全自动资源部署

在自动化方面,我们通过对操作系统、软件类型版本与自动化运维平台中的软件安装编排关联关系进行梳理,在云平台中将ITIL里的操作系统、软件与自动化运维平台中的安装编排的关系进行了维护,从而实现资源申请单中提出的需求自动匹配自动化运维平台的编排进行安装,通过对各类参数的标准化,云管理员仅需要确认信息,无需任何手工操作即可完成对资源的施工。

施工时,云平台通过从IP管理平台获取的IP信息,自动匹配网络分区,根据网络分区确定所使用的虚拟化集群,根据操作系统信息匹配合适的虚拟机镜像。最终根据同一订单反亲和性原则以及宿主机计算资源和存储资源的负载情况条件,通过算法进行计算实现最终落点的选择。

4、微服务部署架构

私有云2.0中的云管理平台升级,采用微服务开发框架,各个组件模块之间相互解耦。前端由负载均衡设备分发前端客户访问,相关微服务模块采用主备、主从、集群等模式分摊在多台应用节点上部署,各自保证其微服务的可靠性;后端数据库采用 MariaDB 主主复制模式,并发单写,保证数据一致性;另外管理节点独立部署,主要负责监控云管理平台自身的健康状况及调度业务负载。

某银行总行数据中心私有云平台2.0建设

通过内置的 API网关,统一对接第三方平台,以保证平台对外数据的一致性;同时统一接口网关减少了不同平台模块之间数据相互依赖、相互调用的需求,保证数据调用的效率;加之标准 API,开放接口生态,支持全系统 API 文档的自动生成,便于平台后续的集成及扩展。

此外,云管理平台采用分布式集群部署方案,支持在不影响业务正常运行的前提下,在线进行平滑的升级和扩展,可横向扩展支撑大规模资源管理场景。

某银行总行数据中心私有云平台2.0建设

五、总结

云计算的“核心目标”是资源按需快速供给,大力发展云计算是对IT基础设施的巨大创新。私有云团队旨在通过将最前沿的技术与我行实际情况相结合,不断推进我行云化数据中心建设,推进管理流程的规范化、资源池建设的标准化,资源全生命周期管理的自动化。我们将以我行的各项规章制度为本,以云计算的技术研究路线为纲,以提供更加完善、高效、智能的服务为宗旨,为我行数字化转型提供最坚实的基础。

【作者】刘肃羽,任职于某银行,从事系统运营工作。拥有 VMware VCAP、Oracle OCM、PMP、RHCE、CKA等认证。在私有云、虚拟化、存储、数据库等领域有广泛的实践经验。