Spark相关文章_第3页

Apache Spark Streaming的简介
时间：2024-05-04 22:32:35
Spark Streaming通过将流数据按指定时间片累积为RDD，然后将每个RDD进行批处理，进而实现大规模的流数据处理。其吞吐量能够超越现有主流流处理框架Storm，并提供丰富的API用于流数据计算。Spark Streaming 是一个批处理的流式计算框架。它的核心执行引擎是 Spark，适合...
Spark入门实战系列--2.Spark编译与部署（下）--Spark编译安装
时间：2024-05-03 18:36:19
【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取、编译Spark、时间不一样，SBT是白天编译，Maven是深夜进行的，获取依赖包速度不同 2、maven下载大文件是多线程进行，而SBT是单进程），Maven编译成功前后花了3、4个小时。1.1 编译Sp...
Spark Streaming VS Flink Streaming
时间：2024-05-03 13:42:49
引自：https://www.slideshare.net/datamantra/introduction-to-flink-streaming...
头歌：Spark Streaming
时间：2024-05-01 20:00:24
第1关：套接字流实现黑名单过滤简介套接字流是通过监听Socket端口接收的数据，相当于Socket之间的通信，任何用户在用Socket（套接字）通信之前，首先要先申请一个Socket号，Socket号相当于该用户的电话号码。同时要知道对方的Socket，相当于对方也有一个电话号码。然后向对方...
编译CDH的spark1.5.2
时间：2024-05-01 14:03:52
手动安装mvn大于3.3.3版本下载解压，修改~/.bash_rcexport MAVEN_HOME=/usr/local/apache-maven-3.3.9export PATH=$MAVEN_HOME/bin:$PATH安装jdk1.8.0 安装scala2.10.6#JAVA VARIAB...
使用Pycharm运行spark实例时没有pyspark包（ModuleNotFoundError: No module named ‘py4j‘）
时间：2024-04-30 14:48:45
一、问题描述在安装并配置pyspark，下载并打开Pycharm（专业版）后进行spark实例操作（笔者以统计文件中的行数为例）时，运行程序后提示ModuleNotFoundError: No module named 'py4j'：二、解决办法 1.下载py4j包后下载pyspark包打开...
Spark和Hadoop的安装
时间：2024-04-29 07:30:34
实验内容和要求 1．安装Hadoop和Spark 进入Linux系统，完成Hadoop伪分布式模式的安装。完成Hadoop的安装以后，再安装Spark（Local模式）。 2．HDFS常用操作使用hadoop用户名登录进入Linux系统，启动Hadoop，参照相关Ha...
Spark---核心概念（Spark,RDD,Spark的核心构成组件）详解
时间：2024-04-22 07:09:31
一、什么是Spark Spark就是一个集成离线计算，实时计算，SQL查询，机器学习，图计算为一体的通用的计算框架。二、Spark特点 1、速度快相比较于MR，官方说，基于内存计算spark要快mr100倍，基于磁盘计算spark要快mr10倍。原因：（1）hadoop执行任务启动的是进程，而...
006 Spark中的wordcount以及TopK的程序编写
时间：2024-04-20 09:37:58
1.启动启动HDFS启动spark的local模式./spark-shell2.知识点textFile: def textFile( path: String, minPartitions: Int = defaultMinPartitions): RDD[String]Filter:...
kafka-spark streaming （一）
时间：2024-04-19 15:12:58
Kafka-spark streaming1、安装包kafka安装需要zookeeper、jdk。官网下载最新的：https://kafka.apache.org/downloadshttp://mirrors.hust.edu.cn/apache/zookeeper/http://www.orac...
从0开始学人工智能测试节选：Spark -- 结构化数据领域中测试人员的万金油技术（二）
时间：2024-04-19 07:08:11
Dataframe dataframe 是spark中参考pandas设计出的一套高级API，用户可以像操作pandas一样方便的操作结构化数据。毕竟纯的RDD操作是十分原始且麻烦的。而dataframe的出现可以让熟悉pandas的从业人员能用非常少的成本完成分布式的数据分析工作，毕竟跟数据打...
带你认识spark安装包的目录结构
时间：2024-04-17 21:18:03
福利 => 每天都推送欢迎大家，关注微信扫码并加入我的4个微信公众号： &n...
用Spark查询HBase中的表数据
时间：2024-04-17 15:17:10
java代码如下：package db.query;import org.apache.commons.logging.Log;import org.apache.comm...
【慕课网实战】Spark Streaming实时流处理项目实战笔记六之铭文升级版
时间：2024-04-16 22:54:47
铭文一级：整合Flume和Kafka的综合使用avro-memory-kafka.confavro-memory-kafka.sources = avro-sourceavro-memory-kafka.sinks = kafka-sinkavro-memory-kafka.channels = m...
Spark2.x学习笔记：Spark SQL程序设计
时间：2024-04-16 20:55:51
1、RDD的局限性RDD仅表示数据集，RDD没有元数据，也就是说没有字段语义定义。RDD需要用户自己优化程序，对程序员要求较高。从不同数据源读取数据相对困难。合并多个数据源中的数据也较困难。2 DataFrame和Dataset（1）DataFrame 由于RDD的局限性，Spark产生了DataF...
spark的standlone模式安装和application 提交
时间：2024-04-16 20:06:41
spark的standlone模式安装安装一个standlone模式的spark集群，这里是最基本的安装，并测试一下如何进行任务提交。require：提前安装好jdk 1.7.0_80 ；scala 2.11.8可以参考官网的说明：http://spark.apache.org/docs/lates...
当Spark遇上TensorFlow分布式深度学习框架原理和实践 - 蓝色de叶子
时间：2024-04-16 18:08:34
当Spark遇上TensorFlow分布式深度学习框架原理和实践近年来，机器学习和深度学习不断被炒热，tensorflow 作为谷歌发布的数值计算和神经网络的新框架也获得了诸多关注，spark和tensorflow深度学习框架的结合，使得tensorflow在现有的spark集群上就...
spark（8）spark案例之WordCount、点击流日志分析、写入数据到mysql/hbase、IP地址查询
时间：2024-04-16 07:41:12
案例1：使用Java实现spark的wordCount案例需求：单词计数第一步：创建maven工程，引入依赖 <dependencies> <...
Spark master的HA实战案例
时间：2024-04-16 07:40:20
Spark master的HA实战案例作者：尹正杰版权声明：原创作品，谢绝转载！否则将追究法律责任。一.部署zook...
使用scala开发spark入门总结
时间：2024-04-15 08:10:27
使用scala开发spark入门总结一、spark简单介绍关于spark的介绍网上有很多，可以自行百度和google，这里只做简单介绍。推荐简单介绍连接：http:...

1 2 3 4 5