Spark-SQL-on-HBase:通过Spark SQLDataframe接口对HBase数据的本地优化访问

时间:2024-05-03 22:41:19
【文件属性】:

文件名称:Spark-SQL-on-HBase:通过Spark SQLDataframe接口对HBase数据的本地优化访问

文件大小:838KB

文件格式:ZIP

更新时间:2024-05-03 22:41:19

Scala

Astro:使用SparkSQL在HBase上进行快速SQL Apache HBase是HDFS上的分布式数据键-值存储。 它以Google的Big Table建模,并提供API来查询数据。 数据通过其“行键”进行组织,分区和分发。 对于每个分区,数据通过“列族”在物理上进一步分区,“列族”指定了数据“列”的集合。 数据模型用于宽而稀疏的表,其中列是动态的,并且很可能稀疏。 尽管HBase是一个非常有用的大数据存储,但是它的访问机制非常原始,并且只能通过客户端API,Map / Reduce接口和交互式Shell进行访问。 可通过Map / Reduce或接口机制(例如Apache Hive和Impala)或某些“本机” SQL技术(例如Apache Phoenix)进行对HBase数据SQL访问。 尽管前者的实现和使用成本通常较低,但它们的延迟和效率通常无法与后者相提并论,并且通常仅


网友评论