不多说,直接上干货!
StreamSets数据操作平台是唯一旨在简化如何构建,执行和操作企业数据流的平台。构建在开源核心上,开发人员可以轻松构建批处理和流式数据流,而且代码少,而运营商使用云本地产品将数十或数百个数据流聚合到拓扑中,并通过实时可见性和性能控制集中管理。
其官网地址:https://streamsets.com
其对数据流采用pipeline方式进行处理,源端数据可以来自多个组件,kafka,directory,mysql,redis等,pipeline的destination也可以有丰富的终端组件,kafka,directory,mysql,redis,hdfs等,中间处理节点也有很多丰富的节点,待会儿搭建好之后就可以在 http://hadoop03:18630 的浏览器右端可以看到。
每一个新的组件,我们的看看他长什么样的?接下来我们就可以在官网进行下载安装包(https://streamsets.com/opensource/),地址中选择自己平台需要的版本进行下载。
https://streamsets.com/
https://streamsets.com/products/sdc
同时,大家可以关注我的个人博客:
http://www.cnblogs.com/zlslch/ 和 http://www.cnblogs.com/lchzls/ http://www.cnblogs.com/sunnyDream/
详情请见:http://www.cnblogs.com/zlslch/p/7473861.html
人生苦短,我愿分享。本公众号将秉持活到老学到老学习无休止的交流分享开源精神,汇聚于互联网和个人学习工作的精华干货知识,一切来于互联网,反馈回互联网。
目前研究领域:大数据、机器学习、深度学习、人工智能、数据挖掘、数据分析。 语言涉及:Java、Scala、Python、Shell、Linux等 。同时还涉及平常所使用的手机、电脑和互联网上的使用技巧、问题和实用软件。 只要你一直关注和呆在群里,每天必须有收获
对应本平台的讨论和答疑QQ群:大数据和人工智能躺过的坑(总群)(161156071)