• hadoop 1.2.1 eclipse 插件编译

    时间:2024-04-08 19:41:52

    hadoop-1.2.1 eclipse插件编译     在ubuntu上进行hadoop相关的开发,需要在eclipse上安装hadoop开发插件。最新释放出的hadoop包含源码的包,以hadoop-1.1.1为例,包含相关的eclipse插件的源码,因此可以针对自己的eclipse版本来编译一...

  • 【原创 Hadoop&Spark 动手实践 10】Spark SQL 程序设计基础与动手实践(下)

    时间:2024-04-08 09:14:37

    【原创 Hadoop&Spark 动手实践 10】Spark SQL 程序设计基础与动手实践(下)目标:1. 深入理解Spark SQL 程序设计的原理2. 通过简单的命令来验证Spark SQL的运行原理3. 通过一个完整的案例来验证Spark SQL的运行原理,自己实际动手来进行掌握4....

  • 【原创 Hadoop&Spark 动手实践 9】Spark SQL 程序设计基础与动手实践(上)

    时间:2024-04-08 08:57:23

    【原创 Hadoop&Spark 动手实践 9】SparkSQL程序设计基础与动手实践(上)目标:1. 理解Spark SQL最基础的原理2. 可以使用Spark SQL完成一些简单的数据分析任务3. 可以利用Spark SQL完成一个完整的案例...

  • 【原创 Hadoop&Spark 动手实践 8】Spark 应用经验、调优与动手实践

    时间:2024-04-08 08:49:06

    【原创 Hadoop&Spark 动手实践 7】Spark 应用经验、调优与动手实践目标:1. 了解Spark 应用经验与调优的理论与方法,如果遇到Spark调优的事情,有理论思考框架。2. 把调优的过程,进行动手实践,完成一些调优的优化过程,加深理解。3. 做一个完整的调优的案例,再次加深...

  • 【原创 Hadoop&Spark 动手实践 6】Spark 编程实例与案例演示

    时间:2024-04-08 08:35:26

     【原创 Hadoop&Spark 动手实践 6】Spark 编程实例与案例演示Spark 编程实例和简易电影分析系统的编写目标:1. 掌握理论:了解Spark编程的理论基础2. 搭建开发环境:自己可以搭建Spark程序开发的环境3. 动手实践简单的示例:完成一些简单的动手实验,可以帮助Sp...

  • Hadoop学习笔记(4) ——搭建开发环境及编写Hello World

    时间:2024-04-07 21:01:45

    Hadoop学习笔记(4) ——搭建开发环境及编写Hello World 整个Hadoop是基于Java开发的,所以要开发Hadoop相应的程序就得用JAVA。在linux下开发JAVA还数eclipse方便。下载 进入官网:http://eclipse.org/downloads/。找到相应的版...

  • mac os x 编译spark-2.1.0 for hadoop-2.7.3

    时间:2024-04-07 17:11:42

    mac os x maven编译spark-2.1.0  for hadoop-2.7.31.官方文档中要求安装Maven 3.3.9+ 和Java 8 ; 2.执行        export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m"3....

  • hue安装步骤+mysql元数据存储、hive、hadoop做集成

    时间:2024-04-07 16:40:30

    1. 使用yum工具来安装hue相关的依赖软件:sudo yum install krb5-develcyrus-sasl-gssapi cyrus-sasl-deve libxml2-devel libxslt-devel mysql mysql-developenldap-devel pytho...

  • Hadoop(三) 大数据离线计算与实时计算

    时间:2024-04-06 22:16:00

    分享一下我老师大神的人工智能教程吧。零基础,通俗易懂!风趣幽默!http://www.captainbed.net/也欢迎大家转载本篇文章。分享知识,造福人民,实现我们中华民族伟大复兴!                一、大数据离线计算:MapReduce计算模型1、MapReduce是处理HDFS...

  • hadoop高可用,多次格式化namenode节点后出现的一系列错误(仅自己可用,勿喷)

    时间:2024-04-06 17:04:38

    第一个问题:启动namenode后秒挂原因:元数据不统一在自己core-site.xml中配置的路径里找到:我的在node01(这是namenode)中的 /var/sxt/hadoop/ha/dfs/name/current的VERSION中查看以及在node02中(这里是datanode)中的/...

  • Hadoop-impala十大优化之(4)—根据执行计划进行性能优化及最佳实践

    时间:2024-04-06 16:22:06

    http://blog.csdn.net/seeyouc/article/details/535817251.1  Hadoop-impala十大优化之(4)—根据执行计划进行性能优化及最佳实践1.1.1  使用解释计划进行性能调整解释语句为您提供了一个查询将执行的逻辑步骤的概要,例如,如何将工作分...

  • Hadoop解决WARN hdfs.DFSClient: DataStreamer Exception org.apache.hadoop.ipc.RemoteException问题

    时间:2024-04-06 15:24:08

    昨天配置完Hadoop环境搭建了集群后,今天跟着视频操作集群,启动集群没啥问题,然操作集群的时候出了问题(上传文件失败)  由于本人是刚学,是个新手,这篇文章有问题之处请大家指出 自己在解决这个问题的时候左弄弄右弄弄被自己解决了,详细步骤也无法给出。总结如下:1、看自己是否关闭防火墙了,防火墙没关可...

  • hadoop各大组件兼容性测试

    时间:2024-04-05 14:10:12

    Hadoop最佳兼容性测试1. 软件版本Alpha,Beta,RC开发期– Alpha(α):预览版,或者叫内部测试版;一般不向外部发布,会有很多Bug;一般只有测试人员使用。– Beta(β):测试版,或者叫公开测试版;这个阶段的版本会一直加入新的功能;在 Alpha版之后推出。– RC(Rele...

  • windows下配置hadoop

    时间:2024-04-05 10:37:51

    1.下载hadoop-2.7.1(其中已经替换了bin和etc)2.配置JAVA_HOME3.配置HADOOP_HOME(地址最好不要有空格,如果有的话,下面有解决办法)path添加%HADOOP_HOME%\bin(win10不用分号或者如下编辑界面不用分号,其余加上 ;)4.配置hadoop-e...

  • Eclipse与Linux—Hadoop(伪分布式)连接

    时间:2024-04-05 09:38:11

    想要连接必须现在windows上配置hadoop环境变量配置Hadoop环境变量鼠标右键我的电脑打开属性点击环境变量进行配置。在用户变量上配置或者在系统变量上配置都可以我一般都是在系统变量上配置首先新建系统变量变量值是自己的hadoop安装包位置,不要带有中文路径。配置完成之后编辑自己的Path加上...

  • 时隔两周,Hadoop 3.1版本发布,支持GPU和FPGA

    时间:2024-04-05 08:30:59

    3月25日,Hadoop 3.0.1版本正式发布,这也让Hadoop正式迈入3.0时代。时隔两周,Apache Hadoop 3.1.0正式发布。与之前的版本(hadoop-3.0)相比,新版本具有许多重要的增强功能,比如支持GPU和FPGA。不过,新版本暂不推荐在正式生产环境中使用。如果需要,请等...

  • 安装Hadoop系列 — 安装JDK-8u5

    时间:2024-04-05 08:10:17

    安装步骤如下:1)下载 JDK 8从http://www.oracle.com/technetwork/java/javasebusiness/downloads/ 选择下载JDK的最新版本 JDK 8。我选择的是:jdk-8u5-linux-x64.tar.gz这个版本的JDK不需要安装,只需要解...

  • HaDoop学习1-第三章

    时间:2024-04-04 13:14:49

    HDFS(Hadoop 分布式文件系统) 一般文件系统的块:1024B,对应的磁盘上一个块512B,当有文件使用600B时,需要两个磁盘块,且其他文件不能使用这两个块 HDFS的块:128MB及更大,,当有文件使用1MB时,需一个磁盘块,其他文件能使用这个块 为什么HDFS的block这么大? 最...

  • 《Spark与Hadoop大数据分析》一一3.6 Spark 资源管理器:Standalone、YARN和Mesos

    时间:2024-04-03 22:42:02

    本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第3章,第3.6节,作者:文卡特·安卡姆(Venkat Ankam) 更多章节内容可以访问云栖社区“华章计算机”公众号查看。3.6Spark 资源管理器:Standalone、YARN和Mesos在本章其他部分(在 PySpark ...

  • hadoop+Spark实战基于大数据技术之电视收视率企业项目实战

    时间:2024-04-03 22:40:50

    课程简介本课程将通过一个电视收视率项目实战驱动讲解,项目案例是国内的一家广电企业作为非洲国家的一个运营商,以用户收视行为数据作为基础数据,通过对频道和节目的分析,采用多维度统计分析的方法挖掘用户的收视行为特征。课程收获1.通过此案例可以学习大数据整体开发流程,课程是围绕一个大数据整理流程而做的教学课...