《开源大数据热力报告2022 》 入围项目公示

时间:2022-10-10 09:05:59

在开源大数据技术飞速发展的十数年,我们见证了多元化技术的兴起和变迁。如何从海量数据中,通过数据处理和可视化的手段,对开源大数据技术的过去、现在和未来,做出深刻洞察?如何为开发者在开源大数据技术领域的学习、选型和技术研发提供有益参考?带着这样的思考,开放原子开源基金会、X-Lab 开放实验室、阿里巴巴开源委员会共同发起了「2022 开源大数据热力报告」项目。

项目简介

「2022 开源大数据热力报告」收集相关公开数据进行关联分析,通过Star、Issue、open PR 等核心指标绘制基于大数据技术栈的热力地图,研究开源大数据进入新阶段后的技术趋势,以及开源社区的运作模式对技术走向的助推作用。项目研究遵循如下7个阶段:公开数据初筛->项目技术分类->专家审议->入围公示&征集修正->热力值计算和关联分析->数据洞察和课题研究->报告审议。

数据来源

2015年1月至2022年9月的Github和Jira公开数据,包括项目id、Star、Issue、open PR,review comment,merge PR等。

数据初筛

项目初筛 Github 上 Topic Tag满足如下条件且开源的大数据项目:

Topic Tag:big-data、etl、data-ingestion、data-collection、data-pipeline、data-analysis、data-analytics、analytics、data visualization、business-intelligence、data science、data-engineering

技术分类

根据大数据现代技术栈框架,对初筛项目进行技术分类。技术分类包括:

数据集成、流处理、数据存储、数据查询和分析、数据开发、数据调度和编排、数据管理/安全/中间件、数据可视化。

说明:

  • 数据查询和分析分类聚焦大数据分析类型项目,不包括OLTP数据库、OLTP能力为主的HTAP数据库和NoSQL数据库
  • 数据可视化分类中需具备数据源链接和处理能力,不包括可视化框架工具项目
  • 数据管理/安全/中间件分类中,项目较少且功能互相交叠,因此归为一类
  • 本次报告聚焦大数据领域,不包含大数据AI融合型项目

项目公示

现将本次入围项目(共计92个)予以公布,公示期为2022年10月10日至10月16日。

技术分类

项目名称

数据集成

airbytehq/airbyte

alibaba/DataX

apache/camel

apache/flume

apache/incubator-seatunnel

apache/inlong

apache/sqoop

dbt-labs/dbt-core

debezium/debezium

ververica/flink-cdc-connectors

流处理

apache/beam

apache/flink

apache/incubator-heron

apache/incubator-streampark

apache/kafka

apache/pulsar

apache/samza

apache/storm

数据查询和分析

apache/arrow-datafusion

apache/calcite

apache/cassandra

apache/doris

apache/drill

apache/druid

apache/hawq

apache/hbase

apache/hive

apache/impala

apache/incubator-kyuubi

apache/kylin

apache/lucene

apache/phoenix

apache/pig

apache/pinot

apache/solr

apache/spark

apache/tez

ClickHouse/ClickHouse

duckdb/duckdb

elastic/elasticsearch

eventql/eventql

greenplum-db/gpdb

opensearch-project/OpenSearch

prestodb/presto

StarRocks/starrocks

trinodb/trino

uber/aresdb

数据存储

apache/avro

apache/bookkeeper

apache/carbondata

apache/hadoop-hdfs

apache/hudi

apache/iceberg

apache/incubator-pegasus

apache/kudu

apache/ozone

apache/parquet-format

delta-io/delta

hazelcast/hazelcast

juicedata/juicefs

数据管理/安全/中间件

apache/ambari

apache/arrow

apache/atlas

apache/bigtop

apache/hadoop

apache/knox

apache/ranger

cube-js/cube.js

datahub-project/datahub

数据开发

apache/incubator-devlake

apache/zeppelin

jupyter/notebook

pachyderm/pachyderm

数据可视化

apache/superset

dataease/dataease

edp963/davinci

elastic/kibana

getredash/redash

grafana/grafana

keplergl/kepler.gl

metabase/metabase

shzlw/poli

数据调度和编排

Alluxio/alluxio

apache/airflow

apache/dolphinscheduler

apache/incubator-linkis

apache/nifi

apache/oozie

apache/zookeeper

dagster-io/dagster

kestra-io/kestra

PrefectHQ/prefect

其他项目补充征集

如果你也是开源项目的爱好者,如果你熟知的项目不在上述列表,但是满足以下标准,可在公示期内扫描下方二维码参与项目提报。

参与标准:

1、开源大数据项目,有明确的开源协议、完善的文档;半年内发布过新版本

2、Github 上带有如下 Topic Tag 之一:big-data、etl、data-ingestion、data-collection、data-pipeline、data-analysis、data-analytics、analytics、data visualization、business-intelligence、data science、data-engineering

参与方式:

《开源大数据热力报告2022 》 入围项目公示

扫描上方二维码,参与征集
截止日期:2022年10月16日24时

发布预告

「 开源大数据热力报告2022」将于2022年11月云栖大会现场正式发布。

特别致谢

  • 联合发起方:开放原子开源基金会、X-Lab开放实验室、阿里巴巴开源委员会
  • 战略合作:开源中国、InfoQ、阿里云开发者社区
  • 合作媒体:CSDN、Datafun、SegmentFault思否