DataWorks开发规范

时间:2023-02-09 11:16:02

1 概述

   目前的数仓为离线数仓,因此DataWorks开发主要涉及到离线数据集成和数据模型开发,因此本节也是分两部分来描述

2 DataWorks开发的准备工作

2.1 工作空间的创立

   工作空间是数据集成,数据开发的基础。本数仓通过工作空间,来实现数仓的分层,即每个工作空间作为数仓的一个物理分层。

工作空间列表跳转链接

登录阿里云 DataWorks控制台——工作空间列表DataWorks开发规范

点击创建空间即可,不过该权限是需要管理员来操作,ram账号权限不足。

2.2 数据源的创立

数据源管理页面跳转链接

进入数据源管理页面,点击新增数据源DataWorks开发规范

根据你的上游数据库的类型,进行勾选合适的数据库类型DataWorks开发规范

以mysql为例:DataWorks开发规范

   关系型数据库都有两种数据源类型,一种是阿里云实例模式,一种是连接串模式,建议大家以阿里云实例模式来新增数据源

  • 在业务中实践中发现,在连接阿里云自建mysql数据库时,为了简单而使用了连接串模式新建数据源,但是在测试连通性的时候,发现公网地址下可以连接;但是在内网地址下却无法连通。通过走工单询问客服,得到答复是:该模式下连接阿里云自建mysql是不支持连接串模式的。

   而“适用环境”选项中,一般勾选开发和生产两个选项,这样该数据源在做数据集成的时候,可以在开发和生产环境下均可以使用。
   rds实例ID和rds实例主账号ID,是由主账号生成的。
   而在输入数据库,用户名和密码后,需要测试连通性后才能点击完成,保证数据源是处于可联通的状态。至此,我们在做数据集成之前的准备工作已经做好。

2.3 数据开发页面简介

具体的开发页面如下图,针对数据开发中涉及到的主要功能页面接下来会一一介绍。

DataWorks开发规范

2.3.1 数据开发

   顾名思义,该页面是进行数据开发的页面    选中“业务流程”,右键新建业务流程,在新建业务流程中具体的功能如下图。而随后的数据集成和数据开发的所有的动作都会在这个页面中进行。

DataWorks开发规范

在业务流程中有几个常用的选项

2.3.1.1、数据集成

该选项是所有的已上线或者未上线的数据集成的任务

2.3.1.2、MaxCompute

该选项是所有的已上线或者未上线的数据模型的调度集合

2.3.1.3、通用

该选项是所有的已上线或者未上线的数据调度线的起始虚拟节点。

2.4 临时查询页面简介

如下图:DataWorks开发规范

     每个开通了DataWorks权限的员工都有权建立属于自己的临时查询文件夹以及查询文件,每个开通了DataWorks权限的员工都有权查看其他人的文件夹以及文件,但是无法做修改。

2.5 公共表页面简介

  如下图DataWorks开发规范

在该页面有两个内容需要读者了解下:

第一、可以在查询窗口查询所有存在的表,在选中表后,下方会有三个选项卡:
a、列信息
可以看到表中的所有的列名,字段类型和字段的备注 b、分区信息
可以看到表的目前已经存在的分区数据
c、数据预览
可以预览看到表中的前二十条数据
综上,可以让你对表结构以及表中数据有个大体的认识。
第二、可以在截图的右上角看到按钮来切换开发环境和生产环境,来查看开发环境和生产环境的的表

2.2.6 函数列表页面简介

如下图: DataWorks开发规范

   函数列表页面是罗列了部分dataworks支持的函数以及函数语法的说明。但是需要注意的是,该列表中的函数并不是dataworks支持的函数的全部,比如nvl函数也支持,但是在函数列表中并没有体现出来。

个人经验,dataworks支持大部分hive,mysql,sqlserver,oracle的函数,但可能又稍有不同,原则上以函数列表页面的函数为准,同时,其他支持的函数需要在业务中不断接触认识。