文件名称:java版ss源码-sputnik:人造卫星
文件大小:283KB
文件格式:ZIP
更新时间:2024-06-24 15:48:45
系统开源
java版s源码人造卫星 编写每日 Spark 批处理作业的框架,使用 Hive 作为主存储。 是第一颗人造地球卫星。 苏联于 1957 年 10 月 4 日将其送入椭圆形近地轨道,在其电池耗尽前绕轨道运行了三周,然后又安静地运行了两个月,然后又落回大气层。 动机 是通用执行引擎,可提供强大的功能和灵活性。 它允许数据工程师以不同的方式从不同的来源读取数据。 从 Hive 读取并写入 Hive 的日常批处理作业通常不需要这种灵活性。 相反,需要一些限制性代码来实现数据工程的一些良好实践。 一个例子可能是一个代码,它读取当前日期的分区数据并写入结果表中该日期的分区。 结果表的回填是 Spark 不做的,需要用户定义。 Sputnik 是一个框架,它有助于遵循在 Hive 中处理数据的日常批处理作业的数据工程的良好实践。 它包含数据工程师编写和操作他们的工作所需的大部分代码。 这包括但不限于: 从此作业运行的控制台中指定的日期或日期范围过滤的源表中读取数据。 回填数据 在将结果数据插入结果表之前对结果数据运行检查 当作业在测试或暂存模式下运行时,将数据写入表的测试版本 实用程序可轻松为作业