记录一下我hive连不上DataGrip的问题
用户名和密码都没问题,但报如下这个错误(确保你的metastore和hiveserver2都是启动的,其次hdfs和yarn也是启动的) 原因:是因为我在linux上没启hiveserver2服务 解决: [atguigu@hadoop102 hadoop]$ hiveserver...
大数据集群中部署Hive-hive安装
1)把apache-hive-3.1.3-bin.tar.gz上传到Linux的/opt/software目录下 2)解压apache-hive-3.1.3-bin.tar.gz到/opt/module/目录下面 tar -zxvf /opt/software/apache-hive-3.1.3-...
Hive:posexplode v.s. explode 实现列转行-lateral view posexplode(array)示例
select id,tim,single_id,single_tim from test.a lateral view posexplode(split(id,',')) t as single_id_index, single_idlateral view posexplode(split(ti...
hive: 自定义函数的用法
一、依赖 <?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSc...
hive窗口分析函数使用详解系列二之分组排序窗口函数
1.综述我们讨论面试中各大厂的SQL算法面试题,往往核心考点就在于窗口函数,所以掌握好了窗口函数,面对SQL算法面试往往事半功倍。已更新第一类聚合函数类,点击这里阅读 hive窗口函数聚合函数类本节介绍Hive聚合函数中的第二类聚合函数:分组排序窗口函数。这些函数的用法不仅仅适用于Hive,对于很多...
hive和spark在分组时用到字符串截取函数substr和substring时的区别
这篇文章主要以日期表为例子,讨论hive和spark在处理分组语句时的异同点,以及substr和substring函数的区别。我们在写hive sql做数据查询时,我们经常会遇到分组的字段需要截取字符串或者处理一下,这时候我们会有一个疑问,我们是要用这个截取字符串的别名做分组呢?还是用截取串的那个函...
Hive(数据仓库)与数据库的区别
数据库和数据仓库,虽然名字只有一点点不同,但是性质却有很大的区别。数据仓库是什么?数据仓库是为企业制定各个级别的决策,可以提供各种数据类型支持的战略集合。它们两种之间的区别,就由我来给大家介绍一下吧。1. 存储数据位置众所周知,Hive是Hadoop生态圈中不可缺少的一部分。Hive的元数据存储在自...
hive中join导致的数据倾斜问题排查
hive中大key导致的join数据倾斜问题1、场景如果某个key下记录数远超其他key,在join或group的时候可能会导致某个reduce任务特别慢。本文分析下join的场景。本例子SQL如下:查询每个appid打开的次数,需要排除掉作弊的imei。selectappid,count(*)fr...
Hadoop的数据分析引擎:Hive
数据分析的引擎:1、Hive ---> 属于Hadoop,支持SQL Pig ---> 属于Hadoop,支持PigLatin 2、Spark SQL ---> 类似Hive,支持SQL和DSL3、(了解)Impala一、什么是Hive? 1、Hive是一个翻译器,S...
Hive服务停止导致Flume收集数据到Hive后无法通过Hue使用分区查询
首先要说明的是本篇所解决的问题1、hive分区没创建成功。2、分区下面小文件过多。3、合并小文件后新生成的文件没有按指定格式压缩。 数据流场景如下图: Hive分区按每小时4个每15分钟生成一个的策略,也就是说每小时会有mm=00、mm=15、mm=30、mm=45 四个分区。问题背景:当时在通过...
elasticsearch 与 hive集成
ElasticSearch是一个基于Lucene构建的开源,分布式,RESTful搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。 Hive是一个基于hdfs的数据仓库,方便使用者可以通过一种类sql(HiveQL)的语言对hdfs上面的打数据进行访问,通过elasti...
Hive某字段空值用同组该字段非空值填充
select order_id,status_submit,status_auditfrom(selectorder_id,coalesce(status_submit, last_value(status_submit) over (partition by order_id order by s...
impala系列: 同步Hive元数据和收集统计信息
---====================-- Impala 获取hive 的 metadata ---====================Impala 通常和Hive共用同一个metadata 数据库(通常是MySQL/PostgreSQL), 所以Impala 能够读取到Hive的元数据...
有关数据开发项目中使用HIVE由于无法update和delete的场景下,如何解决数据增量的思路
解决数据增量问题的思路在Hive中 在数据开发项目中,使用Hive进行数据处理时,由于Hive不支持update和delete语句,处理数据增量可能会变得有些棘手。然而,有几种策略和技术可以帮助我们解决这个问题,并确保数据增量的高效处理。 1. 分析数据更新模式 在处理数据增量之前,首先需要分析数据...
从Navicat导出oracle建表语句,应用sqoop将oracle中的表数据导入到hive
ORACLE库的操作首先选择navicat作为这个文件的工具,作为数据库表结构的导入和导出工具。 导出的时候 会连结构和数据都导出来,会形成一个sql文件 也可以只倒视图或者表都可以的。但是以导出的这个文件导入的时候 会有这样的问题。就是在...
hive 慢sql 查询
hive 慢sql 查询 查找 hive 执行日志存储路径(一般是 hive-audit.log ) 比如:/var/log/Bigdata/audit/hive/hiveserver/hive-audit.log 解析日志 获取 执行时间 执行 OperationId 执行人 UserName...
Spark记录-源码编译spark2.2.0(结合Hive on Spark/Hive on MR2/Spark on Yarn)
#spark2.2.0源码编译#组件:mvn-3.3.9 jdk-1.8#wget http://mirror.bit.edu.cn/apache/spark/spark-2.2.0/spark-2.2.0.tgz ---下载源码 (如果是Hive on spark---hive2.1.1对应spa...
Hue管理用户对于hive数据表的操作权限
Hue管理用户对于hive数据表的操作权限 1、 hue开通用户,只给该用户hive的访问权限http://blog.csdn.net/u012551524/article/details/79392439首先创建一个名pbdd的hue用户,给该用户hive的访问权限2、 ...
hue安装步骤+mysql元数据存储、hive、hadoop做集成
1. 使用yum工具来安装hue相关的依赖软件:sudo yum install krb5-develcyrus-sasl-gssapi cyrus-sasl-deve libxml2-devel libxslt-devel mysql mysql-developenldap-devel pytho...
hive表的使用——创建修改删除
hive表的使用——创建修改删除本文主要介绍hive中表的增加,修改和删除等。好,下面上货。创建表:1、新建数据库xytestdatabase2、编写建表脚本createtablecreate table if not exists xytestdatabase.employee(name stri...