Hive相关文章_第3页

记录一下我hive连不上DataGrip的问题
时间：2024-04-21 16:34:57
用户名和密码都没问题，但报如下这个错误（确保你的metastore和hiveserver2都是启动的，其次hdfs和yarn也是启动的）原因：是因为我在linux上没启hiveserver2服务解决： [atguigu@hadoop102 hadoop]$ hiveserver...
大数据集群中部署Hive-hive安装
时间：2024-04-20 12:19:21
1）把apache-hive-3.1.3-bin.tar.gz上传到Linux的/opt/software目录下 2）解压apache-hive-3.1.3-bin.tar.gz到/opt/module/目录下面 tar -zxvf /opt/software/apache-hive-3.1.3-...
Hive：posexplode v.s. explode 实现列转行-lateral view posexplode(array)示例
时间：2024-04-19 17:46:09
select id,tim,single_id,single_tim from test.a lateral view posexplode(split(id,',')) t as single_id_index, single_idlateral view posexplode(split(ti...
hive: 自定义函数的用法
时间：2024-04-16 07:23:06
一、依赖 <?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSc...
hive窗口分析函数使用详解系列二之分组排序窗口函数
时间：2024-04-13 22:23:34
1.综述我们讨论面试中各大厂的SQL算法面试题，往往核心考点就在于窗口函数，所以掌握好了窗口函数，面对SQL算法面试往往事半功倍。已更新第一类聚合函数类，点击这里阅读 hive窗口函数聚合函数类本节介绍Hive聚合函数中的第二类聚合函数：分组排序窗口函数。这些函数的用法不仅仅适用于Hive，对于很多...
hive和spark在分组时用到字符串截取函数substr和substring时的区别
时间：2024-04-13 14:46:53
这篇文章主要以日期表为例子，讨论hive和spark在处理分组语句时的异同点，以及substr和substring函数的区别。我们在写hive sql做数据查询时，我们经常会遇到分组的字段需要截取字符串或者处理一下，这时候我们会有一个疑问，我们是要用这个截取字符串的别名做分组呢？还是用截取串的那个函...
Hive（数据仓库）与数据库的区别
时间：2024-04-13 12:38:04
数据库和数据仓库，虽然名字只有一点点不同，但是性质却有很大的区别。数据仓库是什么？数据仓库是为企业制定各个级别的决策，可以提供各种数据类型支持的战略集合。它们两种之间的区别，就由我来给大家介绍一下吧。1. 存储数据位置众所周知，Hive是Hadoop生态圈中不可缺少的一部分。Hive的元数据存储在自...
hive中join导致的数据倾斜问题排查
时间：2024-04-13 11:33:56
hive中大key导致的join数据倾斜问题1、场景如果某个key下记录数远超其他key，在join或group的时候可能会导致某个reduce任务特别慢。本文分析下join的场景。本例子SQL如下：查询每个appid打开的次数，需要排除掉作弊的imei。selectappid,count(*)fr...
Hadoop的数据分析引擎：Hive
时间：2024-04-12 15:15:08
数据分析的引擎：1、Hive ---> 属于Hadoop，支持SQL Pig ---> 属于Hadoop，支持PigLatin 2、Spark SQL ---> 类似Hive，支持SQL和DSL3、（了解）Impala一、什么是Hive？ 1、Hive是一个翻译器，S...
Hive服务停止导致Flume收集数据到Hive后无法通过Hue使用分区查询
时间：2024-04-11 19:18:05
首先要说明的是本篇所解决的问题1、hive分区没创建成功。2、分区下面小文件过多。3、合并小文件后新生成的文件没有按指定格式压缩。数据流场景如下图： Hive分区按每小时4个每15分钟生成一个的策略，也就是说每小时会有mm=00、mm=15、mm=30、mm=45 四个分区。问题背景：当时在通过...
elasticsearch 与 hive集成
时间：2024-04-10 22:34:06
ElasticSearch是一个基于Lucene构建的开源，分布式，RESTful搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。 Hive是一个基于hdfs的数据仓库，方便使用者可以通过一种类sql(HiveQL)的语言对hdfs上面的打数据进行访问，通过elasti...
Hive某字段空值用同组该字段非空值填充
时间：2024-04-10 20:39:52
select order_id,status_submit,status_auditfrom(selectorder_id,coalesce(status_submit, last_value(status_submit) over (partition by order_id order by s...
impala系列: 同步Hive元数据和收集统计信息
时间：2024-04-10 12:22:13
---====================-- Impala 获取hive 的 metadata ---====================Impala 通常和Hive共用同一个metadata 数据库(通常是MySQL/PostgreSQL), 所以Impala 能够读取到Hive的元数据...
有关数据开发项目中使用HIVE由于无法update和delete的场景下，如何解决数据增量的思路
时间：2024-04-08 17:41:10
解决数据增量问题的思路在Hive中在数据开发项目中，使用Hive进行数据处理时，由于Hive不支持update和delete语句，处理数据增量可能会变得有些棘手。然而，有几种策略和技术可以帮助我们解决这个问题，并确保数据增量的高效处理。 1. 分析数据更新模式在处理数据增量之前，首先需要分析数据...
从Navicat导出oracle建表语句，应用sqoop将oracle中的表数据导入到hive
时间：2024-04-08 11:21:59
ORACLE库的操作首先选择navicat作为这个文件的工具，作为数据库表结构的导入和导出工具。导出的时候会连结构和数据都导出来，会形成一个sql文件也可以只倒视图或者表都可以的。但是以导出的这个文件导入的时候会有这样的问题。就是在...
hive 慢sql 查询
时间：2024-04-07 21:17:25
hive 慢sql 查询查找 hive 执行日志存储路径（一般是 hive-audit.log ）比如：/var/log/Bigdata/audit/hive/hiveserver/hive-audit.log 解析日志获取执行时间执行 OperationId 执行人 UserName...
Spark记录-源码编译spark2.2.0（结合Hive on Spark/Hive on MR2/Spark on Yarn）
时间：2024-04-07 17:53:05
#spark2.2.0源码编译#组件：mvn-3.3.9 jdk-1.8#wget http://mirror.bit.edu.cn/apache/spark/spark-2.2.0/spark-2.2.0.tgz ---下载源码 (如果是Hive on spark---hive2.1.1对应spa...
Hue管理用户对于hive数据表的操作权限
时间：2024-04-07 16:41:20
Hue管理用户对于hive数据表的操作权限 1、 hue开通用户，只给该用户hive的访问权限http://blog.csdn.net/u012551524/article/details/79392439首先创建一个名pbdd的hue用户，给该用户hive的访问权限2、 ...
hue安装步骤+mysql元数据存储、hive、hadoop做集成
时间：2024-04-07 16:40:30
1. 使用yum工具来安装hue相关的依赖软件：sudo yum install krb5-develcyrus-sasl-gssapi cyrus-sasl-deve libxml2-devel libxslt-devel mysql mysql-developenldap-devel pytho...
hive表的使用——创建修改删除
时间：2024-04-07 14:34:26
hive表的使用——创建修改删除本文主要介绍hive中表的增加，修改和删除等。好，下面上货。创建表：1、新建数据库xytestdatabase2、编写建表脚本createtablecreate table if not exists xytestdatabase.employee(name stri...

1 2 3 4 5