如何跑通第一个 SQL 作业

时间:2022-01-25 13:25:07

简介: 本文由阿里巴巴技术专家周凯波(宝牛)分享,主要介绍如何跑通第一个SQL。

一、SQL的基本概念

1.SQL 分类

SQL分为四类,分别是数据查询语言(DQL)、数据操纵语言(DML)、数据定义(DDL)语言和数据控制语言(DCL)。今天将介绍前三种语言的使用。

如何跑通第一个 SQL 作业

接下来介绍几个基本概念。

2.SQL 开发

如何跑通第一个 SQL 作业

Scripts,即SQL文本。在SQL文本里面可以写上文介绍的前三种语言;
Schema,即元数据。SQL里面需要使用的表和函数,是通过Schema进行定义的;
Artifacts,即UDF Jar包;

3.Catalog

在 Flink SQL里,Catalog是管理元数据的。Catalog通过Catalog.DB.Table来定位一张表。除了DB和Table,Catalog还能注册函数,如UDF、UDTF和UDAF。

如何跑通第一个 SQL 作业

在Flink Catalog里,有三种Catalog实现:

● 第一个是GenericInMemoryCatalog,是内存版的Catalog。平常在使用 Flink SQL的时候,默认是内存版的Catalog。当程序运行结束,第二次重新运行的时候,会重新生成一个Catalog实例。
● 第二个是HiveCatalog,Flink里比较好的支持了HiveCatalog,可以从Hive HMS里读取元数据,同时也可以往Hive里注册表,写数据到Hive里面去。
● 第三个Catalog是 VVP平台里面开发的Catalog,即VvpCatalog,它实现了Flink Catalog的接口,底层是使用的数据库。

4.Deployment

Deployment是一个作业的描述,目前有两种任务类型,JAR和SQL。

如何跑通第一个 SQL 作业

Deployment上有升级策略(Upgrade strategy)和恢复策略(Restore strategy)。Upgrade strategy是指Deployment运行后,用户可以对Deployment的参数进行修改,这个修改如何影响Deployment的运行就是由不同的升级策略决定的;Restore strategy 指启动 Flink任务时,是否从 Savepoint/Checkpoint进行恢复就是不同的恢复策略。

Flink的版本和配置,常用的Flink的参数都可以在这里进行配置。例如:Task Managers 数量,Jobmanager和Taskmanager 的 CPU 和内存等。

Deployment上除了作业描述外,还有期望状态和实际状态。期望状态是指用户所期望的目标状态,例如当要将运行中的作业停止时,期望状态就是Canceled;操作完成的实际运行状态就是实际状态。

总的来说,Deployment是一个任务的描述模板。VVP平台内部的状态机会根据Deployment的期望状态和实际状态来控制作业的实际运行。

5.Job

Deployment启动时会生成一个Job,这个Job对应一个具体的 Flink Job。同一时间,一个Deployment上只会有一个正在运行的Job。

二、SQL的语法说明

1.语法说明

首先看下图的语句,分别是创建源表和创建结果表。

如何跑通第一个 SQL 作业
如何跑通第一个 SQL 作业

下图是注册函数。函数的注册分为两步,第一步上传JAR包,然后在系统上可以勾选自动注册;第二种是使用 Flink 语法进行手工注册。

如何跑通第一个 SQL 作业

使用函数有两种方式,第一是内置函数的使用,如下图UPPER是 Flink 自带的函数;第二种是自定义函数,像MyScalarFunc。

如何跑通第一个 SQL 作业

在VVP平台里,也支持 Flink 里的Temporary Table,可以将它理解为临时表,只在当前会话周期内有效。在下图例子中,我们创建了两个Temporary Table,读取datagen_source表中的数据,输出到blackhole_sink表。

如何跑通第一个 SQL 作业

下图是Temporary View的语法示例。前面两段是一样的临时表;第三条语句是创建了一个tmp_view,它代表从Datagen_source的查询。在Flink里面Temporary View可以理解为让SQL的书写变得更简单,它不会对数据进行一个持久化,和数据库里面View概念是不一样的。第四条语句是从 view里面读取数据并写入到sink表里。

如何跑通第一个 SQL 作业

下图是Statement set的语法示例,这个语法目前在 Flink 1.11版本里还没有,但是在VVP平台做了一些支持。

如何跑通第一个 SQL 作业

如上图,BEGIN STATEMENT SET和END这两个语句之间可以写多条 insert into语句。上图的例子是读取datagen_source 表往两张sink表同时写。这个语句提交后会启动一个完整的Flink Job,里面会有1个source和两个sink。

2.SQL的应用范围

如何跑通第一个 SQL 作业

Create Table,它注册的表会写入系统Catalog里,在VVP平台上面会写到VvpCatalog中,并进行持久化。好处是适合多个query共享元数据。

Create Temporary Table,临时表。它会写到内存版的Catalog里,不会持久化。所以它适合不需要共享元数据的场景,只给当前query使用。

Create Temporary View,主要目的是简化SQL语句。如果不通过Create Temporary View,对于逻辑复杂的SQL写起来会相当复杂,可读性也很差。

Statement Set,适合需要输出到多个下游的场景。

三、SQL 实战

接下来向大家展示销量统计的实例。如下图所示,需求是统计每小时成交量。

如何跑通第一个 SQL 作业

我们首先创建两张表,一个是源表,一个是结果表。下图是创建源表的语句,数据源来自kafka,然后定义watermark是5秒钟。

如何跑通第一个 SQL 作业

下图是结果表,也是一个kafka表。

下图是查询语句,从源表读取数据后,会通过tumble window窗口聚合对数据做一个统计,这样就求出了每小时的成交量。

如何跑通第一个 SQL 作业

1.实战演示

打开VVP的界面,左侧有SQL编辑器,在这个编辑器左边有三栏,第一栏是Scripts,写SQL文本的地方;第二栏是Schemas,用来定义元数据;第三栏是Artifacts, 用来注册UDF。

如何跑通第一个 SQL 作业

首先定义一张datagen_source的表。点击右上角的验证按钮,验证通过后点击旁边的运行。点击运行之后,可以在下面看到运行的结果,运行成功后点击左侧的Schemas,可以找到刚刚创建的datagen_source表。

如何跑通第一个 SQL 作业

然后再创建一张sink表,connector类型是blackhole。然后验证并运行。

如何跑通第一个 SQL 作业

这样两张表都已经注册到Catalog里面去了,默认的Catalog名字是VVP,Database名字是Default。

如何跑通第一个 SQL 作业

接下来就可以写SQL语句。比如说写一条INSERT INTO语句,写完之后点验证并运行。在运行这条INSERT INTO语句时,系统会提示是否要创建一个SQL作业,点击确认,补充名称等信息,SQL作业就创建好了。

如何跑通第一个 SQL 作业

点击启动这个作业,启动过程中可以在页面上看到关于这个作业的很多信息和配置。

如何跑通第一个 SQL 作业

2.UDF实战展示

UDF开发完成后会打一个JAR包,然后点SQL编辑器左侧的Artifacts,然后点“+”号,将JAR 包上传上来。

如何跑通第一个 SQL 作业

上传完毕,完善JAR 包名称等信息后,点确认完成。JAR包上传过程中,VVP系统会对JAR 包进行解析。解析之后系统会提示是否注册,勾选需要注册的内容,点击创建Function。

如何跑通第一个 SQL 作业

然后如下图,上面就是已注册的Function,下面是可用Function,可以选择继续注册或关掉窗口。

如何跑通第一个 SQL 作业

如果不需要这个函数了,可以在页面左侧找到已经注册的Function,点击右侧尾部图标,选择Drop Function。若想重新注册,有两种方法,第一可以点击管理Function;第二通过 Flink的注册函数手动注册。
用注册好的Function创建SQL作业。

在创建页面下拉可以看到很多高级配置,只修改自己需要的配置即可。

如何跑通第一个 SQL 作业

3.Temporary table的使用

上面的例子是注册在Catalog里的,如果不想每次都在Catalog里面进行注册,那就可以直接使用 Temporary table。

如下图将table的创建和INSERT INTO全部写在一起,这样就可以直接创建一个新的SQL作业,而不用提前在Catalog里注册了。

如何跑通第一个 SQL 作业

4.Temporary View

将前面Temporary View例子页面中的语句复制到VVP平台的SQL编辑器中,直接点击运行就可以创建一个作业。

如何跑通第一个 SQL 作业

5.Statement Set

将前面Statement Set例子页面中的语句复制到编辑器中,直接点击运行就可以创建一个作业。启动后,可以通过下图看到运行情况,这个任务从一个源表中读取数据输出到了两个不同的sink表中。

6.查询实战

将前面SQL 实战中创建源表、结果表和查询页面的语句分别复制粘贴到VVP平台的SQL编辑器并启动运行。从下图可以看到这个读写kafka的任务运行起来了。

如何跑通第一个 SQL 作业

作者:周凯波(宝牛),阿里巴巴技术专家

原文链接

本文为阿里云原创内容,未经允许不得转载

如何跑通第一个 SQL 作业的更多相关文章

  1. rails跑通第一个demo

    rails -h 查看帮助 Usage: rails new APP_PATH [options] Options: -r, [--ruby=PATH] # Path to the Ruby bina ...

  2. *测试框架Jest指南:跑通一个完美的程序,就是教出一群像样的学生

    facebook三大项目:yarn jest metro,有横扫宇宙之势. 而jest项目的宗旨为:减少测试一个项目所花费的时间成本和认知成本. --其实,它在让你当一个好老师. jest文档非常简略 ...

  3. 师傅领进门之6步教你跑通一个AI程序!

    欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由云计算基础发表于云+社区专栏 源码下载地址请点击原文查看. 初学机器学习,写篇文章mark一下,希望能为将入坑者解点惑.本文介绍一些机 ...

  4. 一个flink作业的调优

    最近接手了一个flink作业,另外一个同事断断续续有的没的写了半年的,不着急,也一直没上线,最近突然要上线,扔给我,要调通上线. 现状是: 1.代码跑不动,资源给的不少,但是就是频繁反压. 2.che ...

  5. 简介及环境搭建跑通Hello

    简介及环境搭建跑通Hello Spring Spring是一个开放源代码的设计层面框架,他解决的是业务逻辑层和其他各层的松耦合问题,因此它将面向接口的编程思想贯穿整个系统应用.是为了解决企业应用程序开 ...

  6. 终于跑通分布式事务框架tcc-transaction的示例项目

    1.背景 前段时间在看项目代码的时候,发现有些接口的流程比较长,在各个服务里面都有通过数据库事务保证数据的一致性,但是在上游的controller层并没有对一致性做保证. 网上查了下,还没找到基于Go ...

  7. ASP.NET MVC5+EF6+EasyUI 后台管理系统(21)-权限管理系统-跑通整个系统

    系列目录 这一节我们来跑通整个系统,验证的流程,通过AOP切入方式,在访问方法之前,执行一个验证机制来判断是否有操作权限(如:增删改等) 原理:通过MVC自带筛选器,在筛选器分解路由的Action和c ...

  8. 一个sql导致temp表空间爆掉

    Buffer sort引发的血案 今天遇到的一个问题,在线系统上,有两张表,test1大概50G,test2大概200G,需要查询出来test1表中部分记录,并且这些记录不存在test2表中.于是就写 ...

  9. 构建ASP.NET MVC4+EF5+EasyUI+Unity2.x注入的后台管理系统(21)-权限管理系统-跑通整个系统

    原文:构建ASP.NET MVC4+EF5+EasyUI+Unity2.x注入的后台管理系统(21)-权限管理系统-跑通整个系统 这一节我们来跑通整个系统,验证的流程,通过AOP切入方式,在访问方法之 ...

随机推荐

  1. 详解:基于WEB API实现批量文件由一个服务器同步快速传输到其它多个服务器功能

    文件同步传输工具比较多,传输的方式也比较多,比如:FTP.共享.HTTP等,我这里要讲的就是基于HTTP协议的WEB API实现批量文件由一个服务器同步快速传输到其它多个服务器这样的一个工具(简称:一 ...

  2. C# MVC 页面静态化导致的问题

    在设置页面静态化的路由,代码如 //静态路由 routes.MapRoute( name: "html", url: "{controller}/{action}.htm ...

  3. EpicEditor – 可嵌入的 JavaScript Markdown 编辑器

    EpicEditor 是一款可以嵌入到网页中的 JavaScript Markdown 编辑器,支持全屏编辑.在线预览.自动保存草稿,离线支持等等.对于开发人员,它提供了一个健壮的API,可以很容易定 ...

  4. PAT

    PAT将每个全局IP地址的可用端口号分为3个部分0~511,512~1023,1023~65535.当PAT从地址池中获取地址时,首先维持源端口不变.如果不可能,它再从池中起始部分搜索可用的端口,如果 ...

  5. [ios]ipad下的splitViewController 让你的APP看起来酷酷的!

    在ipad下可以使用splitViewController splitViewController下包含两个viewController 这是一种将屏幕一分为二的方式. 在水平状态下会出现成两个左右两 ...

  6. webstorm 11 安装配置 grunt 时遇到的问题及解决办法

    想学grunt的可以看看这篇文章,写的很有意思,教程之类的我就不写了,网上很多资料,我就记录下我遇到的问题和解决办法. http://yujiangshui.com/grunt-basic-tutor ...

  7. codeforces 8VC Venture Cup 2016 - Elimination Round C. Lieges of Legendre

    C. Lieges of Legendre 题意:给n,m表示有n个为2的倍数,m个为3的倍数:问这n+m个数不重复时的最大值 最小为多少? 数据:(0 ≤ n, m ≤ 1 000 000, n + ...

  8. CoreCRM 开发实录 —— 前后端分离的重构

    虽然2月初就回来了,可 CoreCRM 一直到5月才开始恢复开发,期间是各种生活中的意外和不方便. 1. 为什么要重构 首先是一件很值得高兴的事情:CoreCRM 有了第一位 contributor! ...

  9. nodejs mysql 执行多条sql语句

    执行多条查询语句 为了安全起见,默认情况下是不允许执行多条查询语句的.要使用多条查询语句的功能,就需要在创建数据库连接的时候打开这一功能: var connection = mysql.createC ...

  10. 微服务Kong(一)——简介

    重要提示: 本教程是根据 KONG 0.10.x 版本进行编写的. 一.什么是KONG Kong是一个可扩展的开源API层(也称为API网关或API中间件).它运行在任何RESTful API之前,并 ...