spark相关文章_第5页

转：Spark User Defined Aggregate Function (UDAF) using Java
时间：2024-04-03 23:02:11
Sometimes the aggregate functions provided by Spark are not adequate, so Spark has a provision of accepting custom user defined aggregate functions. B...
谈谈Spark与Spark-Streaming关系
时间：2024-04-03 22:49:33
spark程序是使用一个spark应用实例一次性对一批历史数据进行处理，spark streaming是将持续不断输入的数据流转换成多个batch分片，使用一批spark应用实例进行处理，侧重点在Steaming上面。我们常说的Spark-Streaming依赖了Spark Core的意思就是，实际...
《Spark与Hadoop大数据分析》一一3.6　Spark 资源管理器：Standalone、YARN和Mesos
时间：2024-04-03 22:42:02
本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第3章，第3.6节,作者：文卡特·安卡姆（Venkat Ankam）更多章节内容可以访问云栖社区“华章计算机”公众号查看。3.6Spark 资源管理器：Standalone、YARN和Mesos在本章其他部分（在 PySpark ...
hadoop+Spark实战基于大数据技术之电视收视率企业项目实战
时间：2024-04-03 22:40:50
课程简介本课程将通过一个电视收视率项目实战驱动讲解，项目案例是国内的一家广电企业作为非洲国家的一个运营商，以用户收视行为数据作为基础数据，通过对频道和节目的分析，采用多维度统计分析的方法挖掘用户的收视行为特征。课程收获1.通过此案例可以学习大数据整体开发流程，课程是围绕一个大数据整理流程而做的教学课...
spark包链接kafka集群报错org.apache.kafka.common.KafkaException: Failed to construct kafka consumer
时间：2024-04-03 19:49:06
1、如果是spark执行的包请到spark下面的jars文件夹里检索是否拥有相关的jar包可以看到我这里是有的，那就不是jar包的问题2、确认是不是版本问题，在自己的本地测试里看一下maven的包我这边版本是一致的，所以也不是版本问题，那是什么原因造成创建消费失败的呢3、kafka的链接可以看到ka...
Spark作业运行时，报错java.io.IOException: Mkdirs failed to create directory file:/home/tmp/catalog/example/
时间：2024-04-03 11:22:15
今天在公司集群上将自己打好的jar扔上去，以spark2-submit脚本提交作业，等到接近中午时候，回头去看，发现报错：Job aborted due to stage failure: Task 10 in stage 6.0 failed 4 times, most recent...
spark history server部署
时间：2024-04-02 16:46:53
spark history server是spark提供的spark应用历史数据查询服务，可以通过history server页面查看已经运行结束的spark应用的所有job执行情况，用于分析，因为spark集群保存的spark应用数量和每个应用的job数量有一定的限制，对于时间比较久远的应用或者应...
spark中ip归属地访问的次数练习
时间：2024-04-02 14:39:37
IP地址归属地信息练习用户访问日志信息：**案例需求：**根据访问日志的IP地址计算出访问者的归属地，并且按照省份，计算出访问次数，然后将计算好的结果写入到MySQL**案例实现步骤**1，加载IP地址归属地信息，切分出IP字段和省份信息，（将IP地址转换成十进制，方便于后面快速查找）2，将IP地址...
Spark App自动化分析和故障诊断
时间：2024-04-01 14:56:45
陈泽，苏宁云商IT总部高级技术经理。苏宁云商大数据离线计算平台的计算方向负责人，目前主要从事Yarn，Hive，Spark，Druid等计算组件研发工作。曾就职于百度，有多年的Spark大数据方向的研发经验，精通Spark SQL，Druid等内核原理，有丰富的任务故障诊断和性能调优经验。本文系陈...
探索图数据处理的魅力：使用Spark GraphX解析图数据和应用图算法
时间：2024-04-01 13:28:59
导语：在当今数据驱动的世界中，图数据处理和分析变得越来越重要。本文将介绍如何使用Spark GraphX，一个强大的图计算库，来处理和分析图数据。通过详细的Java代码示例和模拟输出结果，你将了解如何创建图、执行图操作和应用图算法，帮助你踏上图数据处理的探索之旅。 1. Spark GraphX简介...
已解决！idea 启动spark类时，出错！ JsonMappingException：Incompatible Jackson version: 2.9.8
时间：2024-03-31 20:24:20
问题描述：启动spark类报错如下：Caused by: com.fasterxml.jackson.databind.JsonMappingException: Incompatible Jackson version: 2.9.8原因：spark 依赖的版本过高，不兼容！解决：修改jackso...
spark伪分布式搭建及spark页面8080端口访问出错的问题
时间：2024-03-31 20:18:37
伪分布式搭建其实很简单（spark集群搭建都很简单）1、首先到官网下载spark压缩包2、下载命令行中使用：wget http://mirror.bit.edu.cn/apache/spark/spark-2.2.1/spark-2.2.1-bin-hadoop2.7.tgz3、解压tar -zxv...
Spark实战(三)本地连接远程Spark(Python环境)
时间：2024-03-31 16:11:00
一、Python环境准备远程服务器上Python版本要与本地想匹配，这里本地使用Anaconda来进行安装，远程服务器之间安装。wget --no-check-certificate https://www.python.org/ftp/python/3.6.7/Python-3.6.7.tg...
CDH安装配置zeppelin-0.7.3以及配置spark查询hive表
时间：2024-03-31 16:09:17
1.下载zeppelinhttp://zeppelin.apache.org/download.html 我下载的是796MB的那个已经编译好的，如果需要自己按照环境编译也可以，但是要很长时间编译，这个版本包含了很多插件，我虽然是CDH环境但是这个也可以使用。2.修改配置文件cd /zeppeli...
Hadoop+Spark大数据技术（微课版）曾国荪、曹洁版思维导图第三章 MapReduce分布式计算框架（核心思想：“分而治之”）
时间：2024-03-31 15:57:44
第三章 MapReduce分布式计算框架（核心思想：“分而治之”） 3.1 MapReduce 概述 3.1.1 并发、并行与分布式编程的概念并发和并行并发是指两个任务可以在重叠的时间段内启动、运行和完成；并行是指任务在同一...
Spark -- 对DataFrame增加一列索引列(自增id列)==》（解决出现ID自增且唯一，但是不呈现自然数递增的问题）
时间：2024-03-31 11:13:53
Spark DataFrame 添加自增id 在用Spark 处理数据的时候，经常需要给全量数据增加一列自增ID序号，在存入数据库的时候，自增ID也常常是一个很关键的要素。在使用mmlspark的LightGBMRanker时也需要指定一列int/long类型的id列，下面是几种实现方式。方式一：...
PyCharm远程连接Spark【本地虚拟机或云主机】
时间：2024-03-31 10:21:36
环境说明：1、本地虚拟机版本是 CentOS6.9 | 连接的云主机是 Ubuntu18.04。【两个都连接成功了，方法步骤一样】2、保证虚拟机上的 Spark 能正常运行，并且启动了Spark。3、Spark 版本 2.4.5 。连接步骤：1、在虚拟机上安装 py4j 安装包。pip instal...
Spark RDD 按Key保存到不同文件
时间：2024-03-30 18:07:18
基本需求将Keyed RDD[(Key,Value)]按Key保存到不同文件。测试数据数据格式：id,studentId,language,math,english,classId,departmentId1,111,68,69,90,Class1,Economy2,112,73,80,96,Cla...
spark.sql集成hive:Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
时间：2024-03-30 15:14:33
SparkSQL集成hive错误：Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient写sparksql，查询hive表报错Unable to instantiate org.apach...
一、Spark 架构及运行模式
时间：2024-03-30 15:04:09
一、Spark 是什么Spark 是基于内存计算的框架。二、Spark 产生的背景Spark 产生的原因主要是为了解决 Hadoop 的缺点，这里有一个时间线可以引出 Spark 的诞生。1、Hadoop 1.x——2011年 (Hadoop 1.x 架构) （ Hadoop 1.x ...

1 2 3 4 5