Apache Beam发布第一个稳定版本

时间:2023-01-30 15:38:38

Apache Beam在官方博客上正式发布了Beam 2.0.0。这是Beam有史以来的第一个稳定版本,根据Beam社区的声明,Beam意欲为未来版本发布保持API的稳定性,并让Beam适用于企业的部署。

Beam的第一个稳定版本是Beam社区发布的第三个重要里程碑。Beam在2016年2月成为Apache孵化器项目,并在同年12月升级成为Apache基金会的*项目。经过从开始至今的15个月全神贯注的努力,从一个有点混乱的代码库开始,从各大组织合并代码,成就了如今的这个数据处理框架,它是一个真正与引擎和环境无关的数据处理框架。Beam经过三个孵化器版本和三个后孵化器版本的演化和改进,最终迎来了它的第一个稳定版2.0.0。

在从升级为*项目至今的5个月时间里,Beam在采用率和社区贡献两个方面都取得了重大进展。Google Cloud、PayPal、Talend等公司都在使用Beam。

Beam 2.0.0改进了用户体验,专注于提升框架在各种执行环境中的无缝移植能力,这些执行环境包括执行引擎、操作系统、本地集群、云端,以及数据存储系统。Beam的其他特性还包括如下几点。

  • API稳定性和对未来版本的兼容性。
  • 有状态的数据处理范式,支持高效的依赖数据的计算。
  • 支持用户扩展的文件系统,内建支持Hadoop分布式发文件系统及其他。
  • 提供了一个度量指标系统,可用于深入窥见管道的执行情况。

很多贡献者促成了这个稳定版本的发布,他们承担了各种角色的任务:贡献代码、编写文档、测试候选版本、为用户提供支持,等等。

Beam 2.0.0将会在这周于迈阿密举行的“Apache:大数据”大会上首次亮相,会上将会有四个与Beam相关的主题。Beam也将会成为很多开发者见面会的主角,包括“圣何塞数据的未来”见面会、“伦敦斯特拉塔数据大会”、“柏林Buzzwords”,以及“圣何塞DataWorks峰会”。

开发者从今天开始就可以试用Beam,也可以考虑加入Beam社区,或者可以通过Beam的邮件组问题跟踪系统向社区提供反馈意见和问题。