在开源大数据技术飞速发展的十数年,我们见证了多元化技术的兴起和变迁。如何从海量数据中,通过数据处理和可视化的手段,对开源大数据技术的过去、现在和未来,做出深刻洞察?如何为开发者在开源大数据技术领域的学习、选型和技术研发提供有益参考?带着这样的思考,开放原子开源基金会、X-Lab 开放实验室、阿里巴巴开源委员会共同发起了「2022 开源大数据热力报告」项目。
项目简介
「2022 开源大数据热力报告」收集相关公开数据进行关联分析,通过Star、Issue、open PR 等核心指标绘制基于大数据技术栈的热力地图,研究开源大数据进入新阶段后的技术趋势,以及开源社区的运作模式对技术走向的助推作用。项目研究遵循如下7个阶段:公开数据初筛->项目技术分类->专家审议->入围公示&征集修正->热力值计算和关联分析->数据洞察和课题研究->报告审议。
数据来源
2015年1月至2022年9月的Github和Jira公开数据,包括项目id、Star、Issue、open PR,review comment,merge PR等。
数据初筛
项目初筛 Github 上 Topic Tag满足如下条件且开源的大数据项目:
Topic Tag:big-data、etl、data-ingestion、data-collection、data-pipeline、data-analysis、data-analytics、analytics、data visualization、business-intelligence、data science、data-engineering
技术分类
根据大数据现代技术栈框架,对初筛项目进行技术分类。技术分类包括:
数据集成、流处理、数据存储、数据查询和分析、数据开发、数据调度和编排、数据管理/安全/中间件、数据可视化。
说明:
- 数据查询和分析分类聚焦大数据分析类型项目,不包括OLTP数据库、OLTP能力为主的HTAP数据库和NoSQL数据库
- 数据可视化分类中需具备数据源链接和处理能力,不包括可视化框架工具项目
- 数据管理/安全/中间件分类中,项目较少且功能互相交叠,因此归为一类
- 本次报告聚焦大数据领域,不包含大数据AI融合型项目
项目公示
现将本次入围项目(共计92个)予以公布,公示期为2022年10月10日至10月16日。
技术分类 |
项目名称 |
数据集成 |
airbytehq/airbyte alibaba/DataX apache/camel apache/flume apache/incubator-seatunnel apache/inlong apache/sqoop dbt-labs/dbt-core debezium/debezium ververica/flink-cdc-connectors |
流处理 |
apache/beam apache/flink apache/incubator-heron apache/incubator-streampark apache/kafka apache/pulsar apache/samza apache/storm |
数据查询和分析 |
apache/arrow-datafusion apache/calcite apache/cassandra apache/doris apache/drill apache/druid apache/hawq apache/hbase apache/hive apache/impala apache/incubator-kyuubi apache/kylin apache/lucene apache/phoenix apache/pig apache/pinot apache/solr apache/spark apache/tez ClickHouse/ClickHouse duckdb/duckdb elastic/elasticsearch eventql/eventql greenplum-db/gpdb opensearch-project/OpenSearch prestodb/presto StarRocks/starrocks trinodb/trino uber/aresdb |
数据存储 |
apache/avro apache/bookkeeper apache/carbondata apache/hadoop-hdfs apache/hudi apache/iceberg apache/incubator-pegasus apache/kudu apache/ozone apache/parquet-format delta-io/delta hazelcast/hazelcast juicedata/juicefs |
数据管理/安全/中间件 |
apache/ambari apache/arrow apache/atlas apache/bigtop apache/hadoop apache/knox apache/ranger cube-js/cube.js datahub-project/datahub |
数据开发 |
apache/incubator-devlake apache/zeppelin jupyter/notebook pachyderm/pachyderm |
数据可视化 |
apache/superset dataease/dataease edp963/davinci elastic/kibana getredash/redash grafana/grafana keplergl/kepler.gl metabase/metabase shzlw/poli |
数据调度和编排 |
Alluxio/alluxio apache/airflow apache/dolphinscheduler apache/incubator-linkis apache/nifi apache/oozie apache/zookeeper dagster-io/dagster kestra-io/kestra PrefectHQ/prefect |
其他项目补充征集
如果你也是开源项目的爱好者,如果你熟知的项目不在上述列表,但是满足以下标准,可在公示期内扫描下方二维码参与项目提报。
参与标准:
1、开源大数据项目,有明确的开源协议、完善的文档;半年内发布过新版本
2、Github 上带有如下 Topic Tag 之一:big-data、etl、data-ingestion、data-collection、data-pipeline、data-analysis、data-analytics、analytics、data visualization、business-intelligence、data science、data-engineering
参与方式:
扫描上方二维码,参与征集
截止日期:2022年10月16日24时
发布预告
「 开源大数据热力报告2022」将于2022年11月云栖大会现场正式发布。
特别致谢
- 联合发起方:开放原子开源基金会、X-Lab开放实验室、阿里巴巴开源委员会
- 战略合作:开源中国、InfoQ、阿里云开发者社区
- 合作媒体:CSDN、Datafun、SegmentFault思否