Hive编程指南读书笔记(1):

时间:2022-11-07 23:06:17

1.Mapreduce是一种计算模型,将计算任务分割成多个可以在服务器集群中并行执行的任务,然后分散到一群家用的或者服务器级别的硬件机器上,从而降低成本并提供水平可伸缩性。

2.mapreduce的两个基本操作:

   (1)map操作:将集合中的元素从一种形式转换为另一种形式,输入的键值对会被转换成零到多个键值对进行输出。

3.hive的限制:(1)hive不支持记录几倍的更新、插入或者删除操作。但是用户可以通过查询生成新的表,或者将查询结果导入文件中,

      (2)hadoop是一个面向批处理的系统,mapreduce任务的启动过程需要消耗较长的时间,hive查询延时比较严重,传统数据库可以在秒级别完成查询,而在hive中,即使数据集相对较小,往往也需要执行更长时间,hive是不支持事务的。(OLTP)