• 记录一下我hive连不上DataGrip的问题

    时间:2024-04-21 16:34:57

    用户名和密码都没问题,但报如下这个错误(确保你的metastore和hiveserver2都是启动的,其次hdfs和yarn也是启动的) 原因:是因为我在linux上没启hiveserver2服务 解决:         [atguigu@hadoop102 hadoop]$ hiveserver...

  • 大数据集群中部署Hive-hive安装

    时间:2024-04-20 12:19:21

    1)把apache-hive-3.1.3-bin.tar.gz上传到Linux的/opt/software目录下 2)解压apache-hive-3.1.3-bin.tar.gz到/opt/module/目录下面 tar -zxvf /opt/software/apache-hive-3.1.3-...

  • Hive:posexplode v.s. explode 实现列转行-lateral view posexplode(array)示例

    时间:2024-04-19 17:46:09

    select id,tim,single_id,single_tim from test.a lateral view posexplode(split(id,',')) t as single_id_index, single_idlateral view posexplode(split(ti...

  • hive: 自定义函数的用法

    时间:2024-04-16 07:23:06

    一、依赖 <?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSc...

  • hive窗口分析函数使用详解系列二之分组排序窗口函数

    时间:2024-04-13 22:23:34

    1.综述我们讨论面试中各大厂的SQL算法面试题,往往核心考点就在于窗口函数,所以掌握好了窗口函数,面对SQL算法面试往往事半功倍。已更新第一类聚合函数类,点击这里阅读 hive窗口函数聚合函数类本节介绍Hive聚合函数中的第二类聚合函数:分组排序窗口函数。这些函数的用法不仅仅适用于Hive,对于很多...

  • hive和spark在分组时用到字符串截取函数substr和substring时的区别

    时间:2024-04-13 14:46:53

    这篇文章主要以日期表为例子,讨论hive和spark在处理分组语句时的异同点,以及substr和substring函数的区别。我们在写hive sql做数据查询时,我们经常会遇到分组的字段需要截取字符串或者处理一下,这时候我们会有一个疑问,我们是要用这个截取字符串的别名做分组呢?还是用截取串的那个函...

  • Hive(数据仓库)与数据库的区别

    时间:2024-04-13 12:38:04

    数据库和数据仓库,虽然名字只有一点点不同,但是性质却有很大的区别。数据仓库是什么?数据仓库是为企业制定各个级别的决策,可以提供各种数据类型支持的战略集合。它们两种之间的区别,就由我来给大家介绍一下吧。1. 存储数据位置众所周知,Hive是Hadoop生态圈中不可缺少的一部分。Hive的元数据存储在自...

  • hive中join导致的数据倾斜问题排查

    时间:2024-04-13 11:33:56

    hive中大key导致的join数据倾斜问题1、场景如果某个key下记录数远超其他key,在join或group的时候可能会导致某个reduce任务特别慢。本文分析下join的场景。本例子SQL如下:查询每个appid打开的次数,需要排除掉作弊的imei。selectappid,count(*)fr...

  • Hadoop的数据分析引擎:Hive

    时间:2024-04-12 15:15:08

    数据分析的引擎:1、Hive  ---> 属于Hadoop,支持SQL   Pig   ---> 属于Hadoop,支持PigLatin   2、Spark SQL ---> 类似Hive,支持SQL和DSL3、(了解)Impala一、什么是Hive? 1、Hive是一个翻译器,S...

  • Hive服务停止导致Flume收集数据到Hive后无法通过Hue使用分区查询

    时间:2024-04-11 19:18:05

    首先要说明的是本篇所解决的问题1、hive分区没创建成功。2、分区下面小文件过多。3、合并小文件后新生成的文件没有按指定格式压缩。  数据流场景如下图: Hive分区按每小时4个每15分钟生成一个的策略,也就是说每小时会有mm=00、mm=15、mm=30、mm=45 四个分区。问题背景:当时在通过...

  • elasticsearch 与 hive集成

    时间:2024-04-10 22:34:06

    ElasticSearch是一个基于Lucene构建的开源,分布式,RESTful搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。 Hive是一个基于hdfs的数据仓库,方便使用者可以通过一种类sql(HiveQL)的语言对hdfs上面的打数据进行访问,通过elasti...

  • Hive某字段空值用同组该字段非空值填充

    时间:2024-04-10 20:39:52

    select order_id,status_submit,status_auditfrom(selectorder_id,coalesce(status_submit, last_value(status_submit) over (partition by order_id order by s...

  • impala系列: 同步Hive元数据和收集统计信息

    时间:2024-04-10 12:22:13

    ---====================-- Impala 获取hive 的 metadata ---====================Impala 通常和Hive共用同一个metadata 数据库(通常是MySQL/PostgreSQL), 所以Impala 能够读取到Hive的元数据...

  • 有关数据开发项目中使用HIVE由于无法update和delete的场景下,如何解决数据增量的思路

    时间:2024-04-08 17:41:10

    解决数据增量问题的思路在Hive中 在数据开发项目中,使用Hive进行数据处理时,由于Hive不支持update和delete语句,处理数据增量可能会变得有些棘手。然而,有几种策略和技术可以帮助我们解决这个问题,并确保数据增量的高效处理。 1. 分析数据更新模式 在处理数据增量之前,首先需要分析数据...

  • 从Navicat导出oracle建表语句,应用sqoop将oracle中的表数据导入到hive

    时间:2024-04-08 11:21:59

                                ORACLE库的操作首先选择navicat作为这个文件的工具,作为数据库表结构的导入和导出工具。  导出的时候 会连结构和数据都导出来,会形成一个sql文件  也可以只倒视图或者表都可以的。但是以导出的这个文件导入的时候 会有这样的问题。就是在...

  • hive 慢sql 查询

    时间:2024-04-07 21:17:25

    hive 慢sql 查询 查找 hive 执行日志存储路径(一般是 hive-audit.log ) 比如:/var/log/Bigdata/audit/hive/hiveserver/hive-audit.log 解析日志 获取 执行时间 执行 OperationId 执行人 UserName...

  • Spark记录-源码编译spark2.2.0(结合Hive on Spark/Hive on MR2/Spark on Yarn)

    时间:2024-04-07 17:53:05

    #spark2.2.0源码编译#组件:mvn-3.3.9 jdk-1.8#wget http://mirror.bit.edu.cn/apache/spark/spark-2.2.0/spark-2.2.0.tgz ---下载源码 (如果是Hive on spark---hive2.1.1对应spa...

  • Hue管理用户对于hive数据表的操作权限

    时间:2024-04-07 16:41:20

    Hue管理用户对于hive数据表的操作权限 1、        hue开通用户,只给该用户hive的访问权限http://blog.csdn.net/u012551524/article/details/79392439首先创建一个名pbdd的hue用户,给该用户hive的访问权限2、       ...

  • hue安装步骤+mysql元数据存储、hive、hadoop做集成

    时间:2024-04-07 16:40:30

    1. 使用yum工具来安装hue相关的依赖软件:sudo yum install krb5-develcyrus-sasl-gssapi cyrus-sasl-deve libxml2-devel libxslt-devel mysql mysql-developenldap-devel pytho...

  • hive表的使用——创建修改删除

    时间:2024-04-07 14:34:26

    hive表的使用——创建修改删除本文主要介绍hive中表的增加,修改和删除等。好,下面上货。创建表:1、新建数据库xytestdatabase2、编写建表脚本createtablecreate table if not exists xytestdatabase.employee(name stri...