• Apache Iceberg: An Architectural Look Under the Covers【翻译】

    时间:2022-12-28 08:56:03

    Introduction建立数据湖是为了实现数据的*化——让越来越多的人、工具和应用程序利用越来越多的数据。实现这一目标所需的一个关键能力是向用户隐藏底层数据结构和物理数据存储的复杂性。事实上,实现这一目标的标准是由Facebook于2009年发布的Hive表格式,该格式解决了其中的一些问题,但在...

  • Iceberg在袋鼠云的探索及实践

    时间:2022-12-21 11:14:03

    “数据湖”、“湖仓一体”及“流批一体”等概念,是近年来大数据领域热度最高的词汇,在各大互联网公司掀起了一波波的热潮,各家公司纷纷推出了自己的技术方案,其中作为全链路数字化技术与服务提供商的袋鼠云,在探索数据湖架构的早期,就调研并选用了Iceberg作为基础框架,在落地过程中深度使用了Iceberg并...

  • 网易基于 Iceberg 的实时湖仓一体系统构建经验

    时间:2022-12-08 16:06:39

    导读:本文将介绍网易基于 Apache iceberg 构建的实时湖仓一体系统——Arctic。主要包括以下几大部分:当前业务的挑战:Lambda 架构下流与批割裂带来的问题Arctic功能特性:网易 Arctic 基于 iceberg 构建的湖仓一体系统业务实践:Arctic 在网易内外的实践未来...

  • 字节跳动基于 Iceberg 的海量特征存储实践

    时间:2022-11-30 08:09:32

    升级低代码平台,助力企业敏捷上云!腾讯云开发与低代码专场,12月1日见!>>>

  • 数据湖Iceberg技术在小米的落地与场景应用

    时间:2022-11-24 16:07:38

    导读:随着流批一体技术的发展,和对实时查询的需求以及出于成本的优化考虑,小米对数据湖 iceberg 技术做了一些实践和场景落地。今天介绍的内容主要有以下四个方面:Iceberg技术简介Iceberg在小米的应用实践基于Iceberg的流批一体的探索未来规划分享嘉宾|李培殿 小米 软件研发工程师编辑...

  • 数据湖三剑客:Hudi vs Delta Lake vs Iceberg

    时间:2022-11-24 11:15:20

    前言随着 Lakehouse 的日益普及,人们对分析和比较作为该数据架构核心的开源项目的兴趣日益浓厚:Apache Hudi、Delta Lake 和 Apache Iceberg。目前发表的大多数比较文章似乎仅将这些项目评估为传统的仅附加工作负载的表/文件格式,而忽略了一些对现代数据湖平台至关重要...

  • B站基于Iceberg+Alluxio助力湖仓一体项目落地实践

    时间:2022-09-29 15:36:11

    本期分享的题目是B站基于Iceberg + Alluxio 助力湖仓一体项目落地实践,内容包含诸多技术细节,主要从以下4个维度进行分享: 摘要 01. B站湖仓一体项目的背景介绍 当前B站每天会有pb级的数据进入Hadoop,从而衍生出大量的数据分析、BI报表、数据探索等需求。当前B站急需一套技...