• hive的数据类型和文件格式

    时间:2024-03-30 14:01:20

    数据类型一、基本数据类型hive的基本数据类型无非还是数值型,字符型,时间戳。多了一个字节数组binary。这个binary数组是没有自字节数限制的,可以在记录中包含任意字节。1、数值型①整型tinyint:类似于Java中的byte,最多存储1字节的有符号数smalint:类似于Java中的sho...

  • Hive 数据类型

    时间:2024-03-30 13:51:21

    基本数据类型  Hive 的原子数据类型是可以进行隐式转换的,类似于 Java 的类型转换1. 隐式类型转换规则如下(1)任何整数类型都可以隐式地转换为一个范围更广的类型,如 TINYINT 可以转换成 INT, INT 可以转换成 BIGINT。(2)所有整数类型、 FLOAT 和 STRING ...

  • hive orc压缩数据异常java.lang.ClassCastException: org.apache.hadoop.io.Text cannot be cast to org.apache.h...

    时间:2024-03-30 10:59:28

     hive表在创建时候指定存储格式STORED AS ORC tblproperties ('orc.compress'='SNAPPY'); 当insert数据到表时抛出异常Caused by: java.lang.ClassCastException: org.apache.hadoop.io....

  • HIVE中处理特殊字符

    时间:2024-03-30 09:02:19

    一、问题描述:根据公司研发提供的加密UDF函数,进行加密(电话号码属于敏感信息需加密)后存在换行现象!(hiveudfencode:加密UDF)二、问题定位及解决步骤:1)查看加密后的字段末尾是否含有换行符,根据16进制转换的函数进行查看,发现末尾带了0D0A,就是代表\r\n2)用hive的替换函...

  • cdh hive 中文注释乱码解决方法(简单几步)

    时间:2024-03-29 17:53:39

    一、问题描述环境 cdh5.12.1 + hive 1.1.0。 hive 元数据库用的是mysql创建hive表后,用desc查看表信息,中文注释出现乱码,如下 二、解决方法1、进入mysql执行:show create database hive;  发现默认是utf8类型    mysql&g...

  • Hive设置MySQL元数据中文乱码编码问题以及解决

    时间:2024-03-29 17:44:13

    Hive设置MySQL元数据编码问题表或者字段有中文的时候需要修改hive的元数据库的设置。以mysql为例子,当mysql的字符集设置成utf8的时候使用hive会有问题(一些命令直接不能执行),详细见hive的wiki。所以当hive使用mysql作为元数据库的时候mysql的字符集要设置成la...

  • 计算机毕业设计Hadoop+Spark+Hive租房推荐系统 贝壳租房数据分析 租房爬虫 租房可视化 租房大数据 大数据毕业设计 大数据毕设 机器学习-技术或业务逻辑特色

    时间:2024-03-29 16:03:08

    核心算法代码分享如下: from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom lxml import etreeimport timefrom selenium.webdriver.ch...

  • Hive SQL必刷练习题:留存率问题(*****)-代码:

    时间:2024-03-29 12:27:25

    select t3.first_login, t3.register, t3.remain_1/t3.register retentionfrom ( select t1.first_login, count(t1.user_id) register, coun...

  • Hive中文注释乱码问题的解决

    时间:2024-03-29 11:51:07

    在Hive中建表的时候,有时候难免要表中文注释,然而如果不经过配置,会导致desc某个表名的时候,直接以?的方式返回。因此也来解决一下hive中文注释乱码的问题。由于HIVE的元数据是存在于MySQL上的,因此需要在mysql上进行元数据的候。因此也来解决一下这个问题。当hive使用mysql作为元...

  • Hive 的使用和配置、底层原理(第一部分)

    时间:2024-03-29 11:50:19

    大数据组件使用 总文章Hive 的使用和配置、底层原理(第一部分)Hive 的使用和配置、底层原理(第二部分)2.Hive 基本操作:    1.创建数据库        创建数据库 实际是在hdfs文件系统中 /user/hive/warehouse目录下 创建一个文件夹“数据库名.db”    ...

  • hive 时间戳的转换方法

    时间:2024-03-29 10:55:25

    由于频繁使用,没有一个博文是完整的,所以整理归纳了一下,遇到了sqlServer的不同语法就也写下来了;  时间戳转成日期hive :   select distinct from_unixtime(1441565203,‘yyyy/MM/dd HH:mm:ss’) from test_date;s...

  • HIVE SQL实现本月一号、月底的提取

    时间:2024-03-29 10:31:10

    在工作中很多时候会遇到需要取当前月一月的订单、产量等数据,那么如何实现呢?首先,当前日期函数,取名为currentday='${zdt.format("yyyy-MM-dd")}'例如:当前日期所在月的一号,取名为currentmontfirstday='${zdt.add(2,0).format(...

  • 使用Spark,从HIVE中获取数据写入HBase过程中遇到的坑

    时间:2024-03-29 09:37:19

    在学习大数据的过程中,通过提交spark-submit提交jar包,将hive中的数据写入HBase的过程中遇到诸多问题,与大家分享。首先,在跑任务的过程中发现错误。ERROR metastore.RetryingHMSHandler: AlreadyExistsException(message:...

  • Hive的数据管理

    时间:2024-03-28 13:14:57

    Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言,称为QL,它允许熟悉SQL的用户查询数据。作为一个数据仓库,Hive的数据管理按照使用层次可...

  • windows平台下安装配置Hive

    时间:2024-03-28 12:07:51

    安装配置流程1.下载Hive软件:http://archive.apache.org/dist/hive/注:下载较新版的hive,在其bin目录下可能会缺少若干.cmd文件(hive-2.1.1 VS hive-2.3.5)        (缺失文件包括:beeline.cmd + hive.cm...

  • Dolphinscheduler调度DataX从MySQL导入到Hive

    时间:2024-03-27 11:23:06

    1、Dolphinscheduler创建文件夹及创建文件2、mysql_dms_good_2_hive文件配置(全量抽取){“job”: {“content”: [{“reader”: {“name”: “mysqlreader”,“parameter”: {“column”: ["*"],“con...

  • hive 中文字段解决方法

    时间:2024-03-27 09:58:43

    使用Impala在kudu中创建含中文字段名的表  Impala版本: 2.7.0+cdh5.10.2+0Kudu版本:1.4.0+cdh5.12.0+0Hue版本:3.9.0+cdh5.10.2+4153因业务需要,需要在kudu中创建含有中文字段的表。原来的方案是直接在Hue中Impala查询界...

  • 【Flink connector】文件系统 SQL 连接器:实时写文件系统以及(kafka到hive)实战举例

    时间:2024-03-27 08:09:52

    文章目录 一. 滚动策略:sink后文件切分(暂不关注)1. 切分分区目录下的文件2. 小文件合并二. 分区提交1. 分区提交触发器 (什么时候创建分区)1.1. 逻辑说明1.2. 举例说明2. 分区时间提取器 (由分区字段来写分区名)2.1. 逻辑说明2.2. 举例说明3. 分区提交策略 ...

  • hive架构及使用场景

    时间:2024-03-26 22:10:15

    一 什么是Hive,它能解决什么问题?Hive是一个基于Hadoop的数据仓库平台。它通过HDFS进行存储,通过MapReduce执行查询计划,使用类SQL的查询语言HQL作为查询接口。作用:可以很方便我们进行数据的ETL工作,避免了使用MapReduce来做如此复杂事情。 二 Hive的架构三 H...

  • 更新HIVE表格的简单方法

    时间:2024-03-26 18:35:04

    第一部分,用于如何更容易地更新Hive表从历史上看,在Apache Hive中保持数据最新,需要定制应用程序开发,这是复杂的,非高性能的,难以维护的。HDP2.6通过在Hive中引入SQL MERGE从根本上简化了数据维护,补充了现有的INSERT,UPDATE和DELETE功能。这个博客展示了如何...