大数据的出现使得数据的处理效率提高不少,这得益于大数据的数据处理系统,而大数据的处理系统有很多。就目前而言,主要的大数据处理系统有数据查询分析计算系统、批处理系统、流式计算系统、迭代计算系统、图计算系统和内存计算系统。下面我们就给大家介绍一下数据查询分析计算系统。
现在可以说是大数据的时代,而在大数据的时代中,数据查询分析计算系统是最常见的系统。数据查询分析计算系统需要具备对大规模数据进行实时或准实时查询的能力,数据规模的增长已经超出了传统关系型数据库的承载和处理能力。正因为如此,数据查询分析计算系统是比较受欢迎的。
就目前而言,主要的数据查询分析计算系统包括很多内容,主要就是Hive、Cassandra、Hana、HBase、Dremel、Shark等。我们现在说一说这些内容。首先就是Hive,Hive是基于Hadoop的数据仓库工具,用于查询、管理分布式存储中的大数据集,提供完整的SQL查询功能,可以将结构化的数据文件映射为一张数据表。而Hive提供了一种类SQL语言,这可以将SQL语句转换为MapReduce任务运行。而Cassandra就不同了,Cassandra是开源的NoSQL数据库系统,并且有很好的可扩展性。一度被知名公司使用。最重要的就是Cassandra其数据模型是一种流行的分布式结构化数据存储方案。而Hana是与数据源无关、软硬件结合、基于内存计算的平台。
HBase是开源、分布式、面向列的非关系型数据库模型,实现了其中的压缩算法、内存操作和布隆过滤器。而HBase的编程语言为Java。可以通过Java API来存取数据。Impala:是运行在Hadoop平台上的开源的大规模并行SQL查询引擎。用户可以使用标准的SQL接口的工具查询存储在Hadoop的HDFS和HBase中的PB级大数据。最后说收Shark,Shark上的数据仓库实现,即SQL on Spark。这个可以与Hive相兼容,但处理Hive QL 的性能比Hive 快100倍。所以现在很多人都开始注意到了shark了。
我们在这篇文章中给大家介绍了大数据处理系统中的数据查询分析计算系统的内容,这些内容包括了Hive、Cassandra、Hana、HBase、Dremel、Shark。我们也对这些内容有了一个比较简单的介绍,希望这篇文章能够给大家带来帮助。