20000节点云数仓在大型商业银行的“实践之路”

时间:2022-12-15 20:07:52
12月14日至16日,第13届中国数据库技术大会(DTCC2022)在线上隆重召开。本次大会以“数据智能 价值创新”为主题,邀请逾百位行业专家,重点围绕云原生数据库、实时数仓技术与应用实践、大数据平台等内容展开分享和探讨。


在15日举行的“金融行业数据库技术实践”专场,建信金融科技基础技术中心、龙趺MPP DB产品负责人陈晓新发表了《20000节点数仓集群在大型商业银行的落地实践》 主旨演讲,分享了建信金科在超大规模MPP数据库实践应用和创新变革。

20000节点云数仓在大型商业银行的“实践之路”

陈晓新介绍, 建信金科 联合HashData等合作伙伴打造的龙趺MPP DB数据库,采用元数据、计算、存储三层分离的架构,在确保高性能计算能力的同时,还具备高并发性、高扩展性,以及灵活的资源动态调度和故障自愈能力。龙趺MPP DB强大、稳定、高效的数据处理功能,为建行蓬勃发展的数据分析业务提供了灵活高效的核心数据仓库支持。




新技术趋势下的新挑战


20000节点云数仓在大型商业银行的“实践之路”

近年来,随着云计算、大数据、人工智能和 区块链等新技术新模式的日趋成熟,科技对于金融的作用不断被强化,创新性的金融解决方案层出不穷,“无科技不金融”逐渐成为行业共识。

“十四五”发展规划和2035年远景目标纲要指出,“稳妥发展金融科技,加快金融机构数字化 转型。”


中国建设银行作为*管理的大型国有银行,在推进数字化转型、建设数字银行方面,一直走在国内商业银行前列。2018年,建行成立了建信金融科技有限责任公司(简称“建信金科”),汇聚全行科研力量,构建金融科技新生态。

一直以来,银行业被视为数据库的“试金石”。庞大的用户规模、复杂的分析需求,对数据库的性能、稳定性及安全性提出了极高的要求。特别是随着5G、移动互联网技术的兴起和普及,网上银行、手机银行、电子支付等新业态不断涌现,高并发、海量数据、超高峰值等挑战接踵而至,导致数据资源存储、计算和分析处理等需求大幅提升。

传统的MPP架构数据库,使用的是存算一体的私有部署架构,这种架构导致了大量数据冗余、数据孤岛频发、资源和集群的运维管控难度大、网络和服务器资源消耗严重等问题。可以说,大型商业银行数据库架构的升级迭代势在必行。



云原生赋能银行应用创新发展


20000节点云数仓在大型商业银行的“实践之路”
为了推动金融科技产业创新发展,2019年8月,中国人民银行印发的《金融科技(FinTech) 发展规划(2019—2021年)》明确提出,做好分布式数据库金融应用的长期规划,加大研发与应用投入力度,妥善解决分布式数据库产品在数据一致性、实际场景验证、迁移保障规范、新型运维体系等方面的问题。探索产用联合新模式,发挥科技公司的技术与创新能力,共同研发新产品、发展新产业、凝聚新动能。有计划、分步骤地稳妥推动分布式数据库产品先行先试,形成可借鉴、能推广的典型案例和解决方案,为分布式数据库在金融领域的全面应用探明路径。

陈晓新介绍,早在2018年, 建信金科 就非常有前瞻性的开始构建基于分布式计算的IT系统架构,并联合HashData、金山云等合作伙伴共同打造了适用于银行核心场景使用的金融级云原生数据库产品——龙趺MPP DB数据库。

20000节点云数仓在大型商业银行的“实践之路”

龙趺MPP DB核心架构

龙趺MPP DB是基于HashData云数仓架构打造的私有云版本,采用了云原生和存算分离的架构设计,具备高可用、高并发、弹性伸缩和高扩展性等优势。

相比传统MPP数据库,龙趺MPP DB的元数据服务分为调度层、无状态服务层、元数据持久层三个层次。通过共享存储架构,任何一个计算集群都可以去访问同一份数据,所有集群共享同一份元数据,彻底消除“数据孤岛”和冗余。
面对数据日趋多元化的问题,在MPP并行计算架构上,龙趺MPP DB集成GIS、Python等组件,支持SQL分析、机器学习、时空分析等多种分析形式。同时,通过丰富的外部计算引擎连接器,龙趺MPP DB支持Hive、Spark、Flink、Kafka等第三方计算框架与引擎方便、高效地访问数据。

此外,龙趺MPP DB支持湖仓一体模式,采用统一的数据存储,形成企业级数据视图,以融合架构搭建湖、仓平台,实现湖仓业务数据和元数据真正融合。


20000节点云数仓在大型商业银行的“实践之路”

陈晓新介绍,龙趺MPP DB自2020年3月上线以来,为建行包括监管报送、电子银行、信用卡、反洗钱等十余个应用提供了稳定、高效的数据处理分析服务,维护了数据的高质量、权威性和一致性。
截至目前,龙趺MPP DB节点规模超过27000个,结构化数据压缩后数据量达到18PB,支持上百个业务场景,并且规模还在持续扩展。
在成本方面,龙趺MPP DB大幅降低了数据冗余,减少数据存储需求30%,节省硬件资源30%以上;在运维方面,龙趺MPP  DB实现了传统MPP数据库所无法做到的动态扩缩 容、故障自愈等功能,运维效率提升10倍以上。

20000节点云数仓在大型商业银行的“实践之路”

尤为重要的是,龙趺MPP DB从服务器到CPU、存储、操作系统,均采用国产品牌产品,达到了银行级的安全可控。
陈晓新表示,基于龙趺MPP DB,建信金科成功实现了超大规模数仓的建设与商用,达到了计算与存储分离、数据不冗余、一键式部署、一键式运维等效果。


展望未来,陈晓新希望通过大数据计算与存储技术,龙趺MPP DB能够实现安全可靠、服务不中断、数据不丢失,可以高效接入、存储、管理和计算不同类型、不同格式的数据,具备多维度资源弹性伸缩、多租户负载管控、全场景故障隔离和自动恢复等能力,“让金融科技尽其所能!”

关于HashData


HashData专注于云端数据仓库的研发与推广,核心团队主要由来自Pivotal、Teradata、IBM、Yahoo!、Oracle和华为等公司资深的云计算、分布式数据库和大数据专家组成。

凭借深厚的技术积累和前瞻性的产品理念,目前,HashData数据仓库已广泛应用于金融、电信运营商、*、交通物流、能源和互联网等行业五十余家客户。


HashData致力于提供稳健、高效、开放、自主可控的数据基础设施,行业头部合作伙伴为我们提供了领先宝贵的实践与经验,我们期待将它们推广迭代,与更多行业客户合作,赋能千行百业,降低数据分析门槛,助力企业充分释放数据价值。