• Apache Spark Streaming的简介

    时间:2024-05-04 22:32:35

    Spark Streaming通过将流数据按指定时间片累积为RDD,然后将每个RDD进行批处理,进而实现大规模的流数据处理。其吞吐量能够超越现有主流流处理框架Storm,并提供丰富的API用于流数据计算。Spark Streaming 是一个批处理的流式计算框架。它的核心执行引擎是 Spark,适合...

  • Spark入门实战系列--2.Spark编译与部署(下)--Spark编译安装

    时间:2024-05-03 18:36:19

    【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取、编译Spark、时间不一样,SBT是白天编译,Maven是深夜进行的,获取依赖包速度不同 2、maven下载大文件是多线程进行,而SBT是单进程),Maven编译成功前后花了3、4个小时。1.1 编译Sp...

  • Spark Streaming VS Flink Streaming

    时间:2024-05-03 13:42:49

    引自:https://www.slideshare.net/datamantra/introduction-to-flink-streaming...

  • 头歌:Spark Streaming

    时间:2024-05-01 20:00:24

    第1关:套接字流实现黑名单过滤   简介 套接字流是通过监听Socket端口接收的数据,相当于Socket之间的通信,任何用户在用Socket(套接字)通信之前,首先要先申请一个Socket号,Socket号相当于该用户的电话号码。同时要知道对方的Socket,相当于对方也有一个电话号码。然后向对方...

  • 编译CDH的spark1.5.2

    时间:2024-05-01 14:03:52

    手动安装mvn大于3.3.3版本 下载解压,修改~/.bash_rcexport MAVEN_HOME=/usr/local/apache-maven-3.3.9export PATH=$MAVEN_HOME/bin:$PATH安装jdk1.8.0 安装scala2.10.6#JAVA VARIAB...

  • 使用Pycharm运行spark实例时没有pyspark包(ModuleNotFoundError: No module named ‘py4j‘)

    时间:2024-04-30 14:48:45

    一、问题描述 在安装并配置pyspark,下载并打开Pycharm(专业版)后进行spark实例操作(笔者以统计文件中的行数为例)时,运行程序后提示ModuleNotFoundError: No module named 'py4j': 二、解决办法 1.下载py4j包后下载pyspark包 打开...

  • Spark和Hadoop的安装

    时间:2024-04-29 07:30:34

    实验内容和要求 1.安装Hadoop和Spark        进入Linux系统,完成Hadoop伪分布式模式的安装。完成Hadoop的安装以后,再安装Spark(Local模式)。 2.HDFS常用操作         使用hadoop用户名登录进入Linux系统,启动Hadoop,参照相关Ha...

  • Spark---核心概念(Spark,RDD,Spark的核心构成组件)详解

    时间:2024-04-22 07:09:31

    一、什么是Spark Spark就是一个集成离线计算,实时计算,SQL查询,机器学习,图计算为一体的通用的计算框架。 二、Spark特点 1、速度快 相比较于MR,官方说,基于内存计算spark要快mr100倍,基于磁盘计算spark要快mr10倍。原因: (1)hadoop执行任务启动的是进程,而...

  • 006 Spark中的wordcount以及TopK的程序编写

    时间:2024-04-20 09:37:58

    1.启动启动HDFS启动spark的local模式./spark-shell2.知识点textFile: def textFile( path: String, minPartitions: Int = defaultMinPartitions): RDD[String]Filter:...

  • kafka-spark streaming (一)

    时间:2024-04-19 15:12:58

    Kafka-spark streaming1、安装包kafka安装需要zookeeper、jdk。官网下载最新的:https://kafka.apache.org/downloadshttp://mirrors.hust.edu.cn/apache/zookeeper/http://www.orac...

  • 从0开始学人工智能测试节选:Spark -- 结构化数据领域中测试人员的万金油技术(二)

    时间:2024-04-19 07:08:11

    Dataframe dataframe 是spark中参考pandas设计出的一套高级API,用户可以像操作pandas一样方便的操作结构化数据。毕竟纯的RDD操作是十分原始且麻烦的。而dataframe的出现可以让熟悉pandas的从业人员能用非常少的成本完成分布式的数据分析工作, 毕竟跟数据打...

  • 带你认识spark安装包的目录结构

    时间:2024-04-17 21:18:03

        福利 => 每天都推送 欢迎大家,关注微信扫码并加入我的4个微信公众号:  &n...

  • 用Spark查询HBase中的表数据

    时间:2024-04-17 15:17:10

    java代码如下:package db.query;import org.apache.commons.logging.Log;import org.apache.comm...

  • 【慕课网实战】Spark Streaming实时流处理项目实战笔记六之铭文升级版

    时间:2024-04-16 22:54:47

    铭文一级:整合Flume和Kafka的综合使用avro-memory-kafka.confavro-memory-kafka.sources = avro-sourceavro-memory-kafka.sinks = kafka-sinkavro-memory-kafka.channels = m...

  • Spark2.x学习笔记:Spark SQL程序设计

    时间:2024-04-16 20:55:51

    1、RDD的局限性RDD仅表示数据集,RDD没有元数据,也就是说没有字段语义定义。RDD需要用户自己优化程序,对程序员要求较高。从不同数据源读取数据相对困难。合并多个数据源中的数据也较困难。2 DataFrame和Dataset(1)DataFrame 由于RDD的局限性,Spark产生了DataF...

  • spark的standlone模式安装和application 提交

    时间:2024-04-16 20:06:41

    spark的standlone模式安装安装一个standlone模式的spark集群,这里是最基本的安装,并测试一下如何进行任务提交。require:提前安装好jdk 1.7.0_80 ;scala 2.11.8可以参考官网的说明:http://spark.apache.org/docs/lates...

  • 当Spark遇上TensorFlow分布式深度学习框架原理和实践 - 蓝色de叶子

    时间:2024-04-16 18:08:34

    当Spark遇上TensorFlow分布式深度学习框架原理和实践 近年来,机器学习和深度学习不断被炒热,tensorflow 作为谷歌发布的数值计算和神经网络的新框架也获得了诸多关注,spark和tensorflow深度学习框架的结合,使得tensorflow在现有的spark集群上就...

  • spark(8)spark案例之WordCount、点击流日志分析、写入数据到mysql/hbase、IP地址查询

    时间:2024-04-16 07:41:12

    案例1:使用Java实现spark的wordCount案例需求:单词计数第一步:创建maven工程,引入依赖 <dependencies> <...

  • Spark master的HA实战案例

    时间:2024-04-16 07:40:20

    Spark master的HA实战案例作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任。    一.部署zook...

  • 使用scala开发spark入门总结

    时间:2024-04-15 08:10:27

    使用scala开发spark入门总结一、spark简单介绍关于spark的介绍网上有很多,可以自行百度和google,这里只做简单介绍。推荐简单介绍连接:http:...