大厂为什么都在用Apache Kylin

时间:2022-11-11 12:03:41

大厂为什么都在用Apache Kylin

坚持原创,写好每一篇文章

通过上篇文章的介绍,我想你应该明白了Apache Kylin为什么能够达到压秒级别的高效查询,它的工作流程就是按照维度和量度预算处出所有的Cuboid并保存物化视图,这样形成了一个Cube,而在进行查询的时候读取Cube中的所需的数据返回,多维数据分析和我们传统的关系型数据库的区别就在它对原始数据进行了预计算,从而比传统数据库要快很多。

Apache Kylin的数据的来龙去脉

我们知道了Apache Kylin的处理数据的原理了,那么它在数据流转中处于什么位置呢?它的数据从哪里来的呢,又跑到哪里去了呢?

Apache Kylin在处理数据上分为三个模块,数据源,构建引擎和存储引擎。事实上,它的数据来源有多种,可以来源于Hadoop、Hive、Kafka,还可以来源于关系型数据库RDBMS。这里说一下Hive是一个数据仓库工具,数据仓库就是用来数据存储的方式,它保存了很多的历史数据就像一个仓库一样。一般Apache Kylin的数据都来自于Hive。这些数据通过MapReduce或者Spark或者Flink来构建出Cube,然后保存到HBASE存储引擎或者Cassandra存储引擎中,除了这些存储好的数据源之外,还可以通过REST请求和jdbc接口、Oracle数据接口ODBC接口等传入数据,然后经过查询引擎解析SQL,然后预结算生成Cube。Apache Kylin有很大的灵活性,这三个模块的技术都支持多种病可以被替代。

Apache Kylin为什么这么受欢迎

Apache Kylin支持的是标准的SQL接口,而不是多维数据集中使用的多维表达式MDX,虽然MDX在多维数据集查询的时候有很大的优势,但是显然SQL语句对我们开发者而言更容易上手,Apache Kylin或许是因为对SQL的支持变得这么流行,很多一线大厂都在使用Apache Kylin。

总结

这篇文章主要介绍了Apache Kylin的数据的来处和去向,同时介绍了Apache Kylin为什么这么受欢迎,很重要的一个原因就是它对SQL接口的支持,让开发者容易上手,不用再学习基于多维数据集的多维表达式。

❤️ 感谢大家

如果你觉得这篇内容对你挺有有帮助的话:

  1. 欢迎关注我❤️,点赞????????,评论????,转发????
  2. 关注盼盼小课堂,定期为你推送好文,还有群聊不定期抽奖活动,可以畅所欲言,与大神们一起交流,一起学习。
  3. 有不当之处欢迎批评指正。