基于OGG和Datahub的阿里流计算Flink平台简介

时间:2024-05-19 15:47:04

平台简介

在传统的数据处理流程中,总是先收集数据,然后再把数据放到DB等到需要的时候再进行相关处理,这种模式不适合某些需要实时数据的应用平台,例如税务的实时申报率,这种采用MR等离线处理并不能很好的解决问题,于是新的数据计算结构:Flink流计算应时而生,它可以对大规模流动数据在不断变化的运转过程中实时的进行分析,加工并把结果发送到下一节点

这里依照阿里流计算平台进行相关知识的分享和探讨

流程链路

基于OGG和Datahub的阿里流计算Flink平台简介

流程点介绍

Ø  源端数据库:oraclemysql等支持ogg作为源端的数据库

Ø  Datahub控制台:通过安装在Adapter里的datahub插件读取trail日志实时把数据发送到Datahub控制台,是一个实时抽取数据的转换站

Ø  Stream加工平台:这里可以把Datahub控制台里的表定义为源端表,通过开发job里的加工过程把加工后的实时数据发送到目标数据库,是一个小计算量短加工平台

Ø  应用层数据库:直接面向前端应用的极速查询数据库

版本控制

目前由于datahub需要最新插件version-2.0.2,这个版本对OGG,JDK,Adapter要求都很严格,不按照版本会产生很多问题,比如datahub插件装在adapter高版本里会报error:no xx.so文件,太高版本的OGG传过来的trail文件Adapter无法解析,而JDK不匹配的话会报java的错。

故这四个的版本请严格控制为:

                                            Datahub               2.0.2

                                            JDK                      1.8

                                            OGG&Adapter     12.1

 

 

tips:限于篇幅,关于详细的安装配置和使用场景可以评论私信我