大数据遇到Kubernetes将擦出怎样的火花

时间:2023-02-28 11:06:05

Pepperdata发布的关于Kubernetes上的大数据现状的一份报告显示,一半以上的受访者表示他们正在“将大数据应用程序迁移到Kubernetes,以降低整体支出。”大数据以这样的速度迁移到Kubernetes的确令人惊讶。

大数据遇到Kubernetes将擦出怎样的火花

将Kubernetes用于大数据

根据中国信通院报告,随着大数据、5G、物联网的发展,到2035年,全球数据量将达2142ZB,是 2020 年所创建数据量的45-46倍,全球数据量即将迎来更大规模的爆发。

面对数据爆发式增长,对海量数据的存储系统提出更严苛要求,如何通过数据挖掘从海量数据中获得有用的信息,谁能更快解决企业爆发增长的数据业务处理,都成为大数据时代面临的挑战。

大数据系统作为处理在线和批处理数据的指数级增长的大规模应用程序,需要一个可靠,可扩展,安全且易于管理的平台,来弥合要处理的大量数据软件应用程序和底层基础结构之间的差距。

Kubernetes则成为大型基础架构中部署应用程序的优秀选择之一。使用Kubernetes,可以处理需要的所有在线和批处理工作负载。

深入理解Kubernetes

Kubernetes已经连续发展成为开发云原生应用程序的首选平台之一。由Google作为开放源代码平台构建的Kubernetes可以处理将容器调度到计算集群上的工作,并管理工作负载以确保它们按预期运行。

官方网站上定义:Kubernetes是一个可移植的,可扩展的开源平台,用于管理容器化的工作负载和服务,可促进声明性配置和自动化。它拥有一个庞大且快速增长的生态系统,Kubernetes的服务,支持和工具广泛可用。

Kubernetes 集群可以跨越本地、公共、私有或混合云的主机,因此,Kubernetes 是托管需要快速扩展的云原生应用程序的理想平台 ,例如通过Apache Kafka的实时数据流。

随着应用程序扩展到跨多个服务器部署的多个容器,操作它们变得更加复杂,为了管理这种复杂性,Kubernetes 提供了一个开源 API,用于控制这些容器的运行方式和位置。

Kubernetes 编排虚拟机集群并根据它们的可用计算资源和每个容器的资源要求安排容器在这些虚拟机上运行,容器被分组为pod,这是 Kubernetes 的基本操作单元,这些 pod 可以扩展到您想要的状态。

Kubernetes 还自动管理服务发现、整合负载平衡、跟踪资源分配并根据计算利用率进行扩展,而且,它会检查单个资源的健康状况,并通过自动重启或复制容器使应用程序能够自我修复。

使用 Kubernetes 运行大数据

在大数据世界中,Hadoop一直是用于部署可扩展和分布式应用程序的主导框架。但是,云计算和云原生应用程序的兴起削弱了Hadoop的普及程度。

Hadoop的三驾马车是MapReduce、YARN、HDFS。其中,MapReduce因效率太低,早已被Spark所取代;YARN并非正规的容器且效率不高,可以被类似于K8s的新一代容器调度体系取代;唯一生命力比较强的是HDFS,因为大部分大数据组件的HDFS API是兼容的,所以取代HDFS暂时有些难度,不过不用担心,因为基本上HDFS只有API是真正有用的。可以看出,Hadoop三驾马车早已失去更新、更灵活的吸引力。

大数据应用程序是使用Kubernetes架构的不二选择,因为Kubernetes集群具有可伸缩性和可扩展性。近两年发生了一些重大事件,将Kubernetes用于大数据,比如2021年3月,Apache的Spark支持了Kubernetes;同年5月,Kafka也公开支持Kubernetes,标志着最核心的大数据组件现在都支持K8s;谷歌宣布将用Kubernetes替换YARN,以安排其Spark工作;eBay已部署数千个Kubernetes集群来管理其Hadoop AI / ML管道……

Pepperdata在报告中称:在Kubernetes上运行Spark提供了更简单的管理、更轻松的依赖项管理和更灵活的部署。提高应用程序性能和稳定性无疑是将应用程序迁移到K8s的首要目标,另外获得工作负载更高的灵活性和可移植性、节省资金以及通过利用多云解决方案以避免云锁定现象,都成为大数据应用程序向Kubernetes迁移的动力。

当大数据平台遇上Kubernetes

Kubernetes已经成为主流,接下来将会有越来越多围绕Kubernetes的平台和工具将实现新功能,赋予企业新的机遇。

例如,智领云自主研发的Kubernetes 大数据平台(KDP),作为市场上首个可完全在Kubernetes上部署的容器化云原生大数据平台,深度整合了云原生架构的优势,将大数据组件及数据应用纳入Kubernetes管理体系,标准化系统管理,提升系统运行效率,降低运维成本,消除应用孤岛及数据孤岛。

简而言之,KDP能够让管理员在Kubernetes上同时管理云与大数据平台,解决传统Hadoop大数据平台在部署、运维、运行效率上由于架构限制带来的难点。

帮助原本已有Kubernetes架构的企业,轻松地将其传统大数据平台迁移至Kubernetes平台上,利用Kubernetes平台管理包括云计算、大数据等整套系统,从而大大提升系统运行效率,降低运维成本。

KDP作为前瞻性的大数据平台,让企业发展的另外一面,在以数据价值驱动发展的新竞争时代中揭开序幕。