路线图介绍:
本课程对大数据生态系统进行全方位讲解,有hadoop实操与底层原理应用,DFS与MapRedcue的全新解读,内含有全网独家发布的YARN调度框架的底层事件二次分发机制和Google源码级IPC和RPC的通信技术原理与报文字节码级别的协议分析,Scala语言的编程技巧与java语言的互操作性,Spark中数据处理如何弹性化、如何调优以及对Scala编程语言的典型应用。ZooKeeper作为分布式系统协同服务的原理实现与实战应用,zkCli下同zk的交互模式以及素有瑞士***之称的NC指令在zk中的运用,Hbase作为面向列族的数据库实现原理以及同ZooKeeper的整合技术,Hive数据仓库技术的使用技巧以及在传统RDBMS的交互与过渡。Mahout以R语言在机器学习领域的重要性和编程技能,Linux下虚拟化与云计算的技术讲解及实战应用。各种streaming数据处理以加压缩技术的性能对比和优化,独立搭建Hortonworks本地仓库,并利用Ambari技术在企业大规模构造大数据规模化集群时的实战过程,一站式安装、配置、调优、监控、运维大数据集群的解决方案。
本路线图针学习目标:
掌握大数据概念和核心应用场景,能够彻底认识到大数据的重要性,以及能够有效把握未来大数据的发展方向。能够掌握hadoop的技术架构和底层原理,对分布式架构能够做到更深入的认识和体会,尤其是yarn框架的底层事件分发机制、轮询机制、多线程以及nio的组合应用。还有更重要的基于google的IPC通信技术。能够独立搭建hadoop集群、配置以及管理。能够灵活应用hadoop生态系统的各种技术进行数据处理。其中对Linux的技术知识也不可小觑,能够搭建各种仓库本地,比如ubuntu软件源、ambari、maven等等一系列组件,都是在企业中极其适用的技术。掌握spark和核心技术尤其是RDD的原理与使用,还有scala语言的掌握。
第一阶段:Hadoop基础环境搭建与3种模 | |
介绍 | 学员请先学习本部分基础课程。本部分将主要讲解Hadoop基础环境搭建与3种模式配置! |
技术大点1:Hadoop第一季--基础知识实战视频课程 | |
重点解析:本课准对大数据进行基础的环境搭建,目前市场比较火的大数据,我们会从基础搭建开始一步步教学 | |
序号 | 技术点细分 |
1 | Hadoop介绍 |
2 | Hadoop基础课程VMware安装 |
3 | Hadoop基础课程Ubuntu下载与虚拟机下安装 |
4 | Hadoop基础课程Ubuntu常用命令 |
5 | Hadoop基础课程Ubuntu目录和权限 |
6 | Hadoop基础课程Ubuntu软件包桌面程序以及增强工具 |
7 | Hadoop基础课程Ubuntu本地软件源与ISO制作 |
8 | Hadoop基础课程Ubuntu克隆与Mac生成&网络连接方式 |
9 | Hadoop在Ubuntu下安装JDK |
10 | Hadoop在Ubuntu下安装Hadoop |
技术大点2:Hadoop第二季-1.配置独立模式视频课程 | |
重点解析:介绍hadoop独立模式,场景使用。一步步演示怎么配置独立模式,并且通过案例介绍独立模式,学完此课程学生会明白伪分布模式与独立模式,完全模式的区别。 | |
序号 | 技术点细分 |
1 | Hadoop配置独立模式 |
技术大点3:Hadoop第二季-2.伪分布式模式的配置视频课程 | |
重点解析:学会如何配置伪分布模式以及使用场景,一步步演示怎么配置伪分布模式,学完此课程学生会明白伪分布模式与独立模式的区别 | |
序号 | 技术点细分 |
1 | Hadoop配置伪分布式模式 |
技术大点4:Hadoop第二季-3.配置完全分布式模式视频课程 | |
重点解析:hadoop三种模式:独立模式,伪模式,完全分布模式。目前常用配置模式,学会使用配置完全分布模式。 | |
序号 | 技术点细分 |
1 | Hadoop配置完全分布模式之修改虚拟机名称和目录 |
2 | Hadoop配置完全分布模式之修改登录提示和主机名 |
3 | Hadoop配置完全分布模式之使用符号链接实现配置分离 |
4 | Hadoop完全分布模式之克隆客户机与ssh远程无密登录 |
5 | .Hadoop配置完全分布模式之IP设置与远程拷贝与格式化启动 |
第二阶段:win7下面配置环境以及mapred | |
介绍 | win7下面配置环境以及mapreduce架构分析与应用 |
技术大点5:Hadoop第三季-Win7下免搭建Cygwin视频课程 | |
重点解析:在win7下面即使不安装cygwin软件,也能在win7下面搭建hadoop环境,中间只需要引入一个第三方增强软件(hadoop-common.zip)即可。 | |
序号 | 技术点细分 |
1 | hadoop在Win7下免Cygwin安装以及第三方增强软件介入 |
2 | Win7下免Cygwin安装续与NativeBug解决与Dexpot |
技术大点6:Hadoop第四季-架构分析实战视频课程 | |
重点解析:掌握架构结构,体系结构,HDFS架构分析,NN和DN原生解读,Hadoop架构分析之启动脚本分析一 | |
序号 | 技术点细分 |
1 | Hadoop架构分析之单节点体系 |
2 | Hadoop架构分析之集群结构分析 |
3 | Hadoop架构分析之HDFS架构分析 |
4 | Hadoop架构分析之NN和DN原生文档解读 |
5 | Hadoop架构分析之启动脚本分析一 |
技术大点7:Hadoop第五季-启动脚本分析视频课程 | |
重点解析:让想学习hadoop的人知道hadoop启动原理,全方便的掌握hadoop原理。 | |
序号 | 技术点细分 |
1 | Hadoop启动脚本分析集群id的兼容与start-allcmd讲解 |
2 | Hadoop启动脚本分析start-dfs与hadoop-config |
3 | Hadoop启动脚本分析hadoop.cmd命令 |
4 | Hadoop启动脚本分析数据格式化与hdfs.cmd命令 |
5 | Hadoop启动脚本分析mared和虚拟机参数的配置 |
6 | Hadoop启动脚本分析start-yarn命令 |
7 | Hadoop启动脚本分析yarn.cmd与yarn-evn.cmd命令 |
8 | Hadoop架构分析之启动脚本分析终极hdsfs部分 |
9 | Hadoop架构分析之启动脚本分析终极yarn部分 |
技术大点8:Hadoop第六季-MapReduce代码实现案例视频课程 | |
重点解析:通过此章可以快速了解MapReduce,并且通过代码实现大数据编写 | |
序号 | 技术点细分 |
1 | Hadoop MapReduce初识 |
2 | Hadoop MapReduce编写Mapper类 |
3 | Hadoop MapReduce编写Reducer类 |
4 | Hadoop MapReduce编写主函数类 |
5 | Hadoop MapReduce独立模式运行程序 |
技术大点9:Hadoop第七季-MapReduce定制block限制+输入切 | |
重点解析:了解学习MapReduce集群模式下一些知识 | |
序号 | 技术点细分 |
1 | Hadoop MapReduce集群模式下运行程序 |
2 | Hadoop MapReduce集群模式调整配置与shell |
3 | Hadoop MapReduce集群模式调整配置最小块 |
4 | Hadoop MapReduce集群模式调整配置考查数据分布 |
5 | Hadoop MapReduce定制切割与副本数以及块大小定制 |
6 | Hadoop MapReduce集群模式深入定制切割与切割法则考查 |
7 | win7下配置networks文件映射主机名和端口号利于网络访问 |
8 | MapReduce原理之物理导航+eclipse安装+后台启动+命令化 |
9 | Hadoop MapReduce原理之Hadoop插件安装+配置+验证 |
10 | Hadoop MapReduce原理之与大象装进冰箱的相似点 |
11 | Hadoop MapReduce原理之进入流程图 |
12 | Hadoop MapReduce原理之核心类Job和ResourceManager解读 |
13 | Hadoop MapReduce原理之核心类NodeManager和MRAppMaster解读 |
14 | Hadoop MapReduce原理核心类Yarn与MapTask与ReduceTask |
15 | Hadoop MapReduce原理之核心类RM与NM与AM的体系结构分析 |
技术大点10:Hadoop第八季-1.MapReduce原理探查准备视频课程 | |
重点解析:一般同学只会用而不知道原理,为了增加工作中更好的应用MapReduce,徐培成老师对MapReduce原理进行3个课程的分析。 | |
序号 | 技术点细分 |
1 | Hadoop MR win7下配置networks文件 |
2 | Hadoop MapReduce原理之物理导航等命令化操作 |
3 | Hadoop MapReduce原理之Hadoop插件安装+配置+验证 |
技术大点11:Hadoop第八季--2.MapReduce原理探查与大象关进冰 | |
重点解析:对hadoop中MapReduce原理探查与大象关进冰箱+流程图 | |
序号 | 技术点细分 |
1 | Hadoop MapReduce原理之与大象装进冰箱的相似点 |
2 | Hadoop MapReduce原理之进入流程图 |
技术大点12:Hadoop第八季-3.MapReduce原理探查核心类整理分析 | |
重点解析:对Hadoop中MapReduce原理探查核心类整理分析 ,全面了解MapReduce | |
序号 | 技术点细分 |
1 | Hadoop MapReduce原理之核心类Job和ResourceManager解读 |
2 | Hadoop MapReduce原理之核心类NodeManager和MRAppMaster解读 |
3 | Hadoop MR原理之核心类Yarn与MapTask与ReduceTask解读 |
4 | Hadoop MapReduce原理之核心类RM与NM与AM的体系结构分析 |
技术大点13:Hadoop第九季-1.MapReduce原理代码实战异常再现+A | |
重点解析:对hadoop中MapReduce原理通过代码实战讲解并且通过异常再现+Ant | |
序号 | 技术点细分 |
1 | Hadoop MapReduce原理代码实战之错误信息展现于分析 |
2 | Hadoop MapReduce原理代码实战之Ant使用 |
技术大点14:Hadoop第九季--2.MapReduce原理代码实战Job提交推 | |
重点解析:MapReduce客户端提交job的流程分析、job内部提交过程展示、job在提价后在hdfs集群上的各个文件内容与部分以及web ui的操作。 | |
序号 | 技术点细分 |
1 | Hadoop MapReduce原理代码实战之Job提交推演 |
技术大点15:Hadoop第九季-3.MapReduce原理探查核心类整理分析 | |
重点解析:从底层源代码阐述MR原理技术,核心类的关系和体系结构,图文并茂解析理论。 | |
序号 | 技术点细分 |
1 | Hadoop MapReduce原理代码实战之Job初始化分析 |
2 | Hadoop MapReduce原理代码实战之ResourceManager远程调试 |
第三阶段:YARN调度框架事件与Hadoop底层IPC和RPC通信原理解析 | |
介绍 | YARN调度框架事件与Hadoop底层IPC和RPC通信原理解析 |
技术大点16:Hadoop第十季-YARN调度框架事件二次分发原理深度解 | |
重点解析:掌握YARN底层事件调度机制,清晰描述Application基于状态机的变换过程和实现原理,事件流处理方式,eclipse的远程调试。 | |
序号 | 技术点细分 |
1 | Hadoop Yarn框架底层事件分发机制概述 |
2 | Hadoop Yarn框架底层事件分发调试准备 |
3 | Hadoop Yarn框架底层事件分发调试Async分发器调试 |
4 | Hadoop Yarn底层事件分发调试RMApp事件处理调试+状态机变换 |
5 | Hadoop Yarn框架底层事件分发调试之状态机事件触发原理 |
技术大点17:Hadoop第十一季-Hadoop底层IPC和RPC通信原理解析 | |
重点解析:通过对Hadoop底层通信原理的阐述以及在源代码层面上的跟踪,结合图形方式描述请求发送时,消息的封装过成,让大家理解hadoop在底层的通信过程,最终看到Socket通信的内容。 | |
序号 | 技术点细分 |
1 | Hadoop 底层IPC和RPC通信原理解析 |
第四阶段:Ambari、ZooKeeper、Hbase | |
介绍 | YARN调度框架事件与Hadoop底层IPC和RPC通信原理解析 |
技术大点18:Ambari第一季-ambari介绍、安装使用以及常见问题视 | |
重点解析:通过本章节介绍了解ambari的优点,工作原理,能够熟练对ambari进行安装配置,以及解决常见的错误和问题。了解HDP和HDP utils以及hortonworks项目。 | |
序号 | 技术点细分 |
1 | Ambari Hadoop集群管理软件之介绍 |
2 | Ambari Hadoop集群管理软件之下载安装配置启动登 |
3 | Ambari之疑难问题解决与Root账户无密登录处理 |
技术大点19:Ambari第二季--集群管理本地软件栈构建与使用视频课程 | |
重点解析:掌握HDP软件栈的执行原理,能够数量进行HDP、Ambari等软件的本地仓库升级与配置。 | |
序号 | 技术点细分 |
1 | Ambari Hadoop集群管理软件之HDP软件栈本地仓库搭建 |
2 | Ambari Hadoop集群管理软件之AmbariServer通过本地仓库安装 |
3 | Ambari Hadoop集群管理软件之Hadoop集群本地化安装 |
技术大点20:ZooKeeper第一季-ZK简介、下载与安装视频课程 | |
重点解析:了解ZooKeeper用途、原理,掌握ZooKeeper集群构建过程,解决在安装期间常见的问题和错误。 | |
序号 | 技术点细分 |
1 | ZooKeeper简介 |
2 | ZooKeeper下载与安装 |
技术大点21:ZooKeeper第二季-Leader宕机演示、nc、zkCli命令使 | |
重点解析:掌握Leader的选举过程,nc命令的使用,包括tcp网络传输、文本聊天和端口扫描。zkCli命令的使用,zk的核心概念和专业术语。 | |
序号 | 技术点细分 |
1 | ZooKeeper分布式集群配制与Leader宕机测试 |
2 | ZooKeeper分布式集群配制与nc Linux命令的网络通信利器 |
3 | ZooKeeper分布式集群配制与zk四字符客户端指令 |
4 | ZooKeeper分布式集群配制与zkCli.sh客户端程序使用 |
技术大点22:ZooKeeper第三季-ZK客户端编程API使用、观察者模式回调处理视频课程 | |
重点解析:掌握zk核心类库的使用和编程技巧,重点在zk观察者中事件回调机制的使用以及one time方式的注意事项。 | |
序号 | 技术点细分 |
1 | ZooKeeper分布式集群协同之客户端API调用 |
2 | ZooKeeper分布式集群协同之客户端API创建和删除path |
3 | ZooKeeper客户端API观察者模式与事件回调处理 |
技术大点23:HBase内功修炼实战视频课程 | |
重点解析:HBase直接上手实战,深入掌握HBase。 | |
序号 | 技术点细分 |
1 | HBase介绍 |
2 | HBase安装、体验 |
3 | HBase完全分布式配置、启动与shell命令查看 |
4 | HBase使用客户端API动态创建Hbase数据表并在Hbase下导出执行 |
5 | HBase使用客户端API完成数据库CRUD操作 |
6 | HBase使用新型API类库进行数据访问操作 |
7 | HBase新API大批量插入以及hbase表结构与Hadoop文件系统 |
8 | HBase与ZooKeeper组合应用以及在shell下操纵namespace.avi |
技术大点24:Scala精通与实战编程视频课程 | |
重点解析:掌握Scala的编程语法,理解Scala的运行原理,熟练运用Scala进行程序开发,能够在Java和Scala之间灵活切换和互操作。 | |
序号 | 技术点细分 |
1 | Scala介绍与安装 |
2 | Scala基础 |
3 | Scala操作符重载与Apply与包导入 |
4 | Scala控制结构与函数 |
5 | Scala异常处理与过程与延迟初始化 |
6 | Scala数组与多维数组 |
第五阶段:征服Spark | |
介绍 | YARN调度框架事件与Hadoop底层IPC和RPC通信原理解析 |
技术大点25:征服Spark(一)入门与提高篇视频课程 | |
重点解析:掌握Spark核心概念和技术原理掌握Spark与Hadoop的优势对比掌握Spark的两种安装方式与集群的构建掌握Spark的核心概念Resilient Distributed Dataset.掌握Maven的工作原理以及本地Maven仓库服务器的搭建与配置掌握Spark集群的部署模式以及shell的应用掌握Spark编程与运行 | |
序号 | 技术点细分 |
1 | Spark简介 |
2 | Spark预编译版本下载安装与启动 |
3 | Spark体验shell操作与wc操作与RDD介绍 |
4 | Spark通过Maven进行源码编译安装 |
5 | Spark搭建Maven本地仓库服务器 |
6 | Spark通过本地Maven仓库服务器进行编译 |
7 | Spark官方doc的宏观描述和优势说明 |
8 | Spark独立集群模式部署和启动 |
9 | Spark Master和Worker的webui查看以及FIFO作业调度讲解 |
10 | Spark独立集群模式端口修改 |
技术大点26:征服Spark(二)Spark项目编译运行篇视频课程 | |
重点解析:了解sbt(simple build tool)掌握使用maven对Spark的项目进行编译和运行,理解addFile的操作原理和Spark的整体概述掌握maven的pom文件的配置掌握eclipse下maven的使用与spark项目的构建以及仓库的配置。 | |
序号 | 技术点细分 |
1 | Spark shell应用于addFile |
2 | Spark程序build的宏观介绍 |
3 | 通过交互模式初始化Maven项目 |
4 | 通过参数指定方式直接初始化Maven项目 |
5 | 准备java源文件到自己的源码包中 |
6 | 设置pom.xml文件依赖插件以及与*仓库目录树的对应关系 |
7 | 使用mvn package指令进行编译并进行打包 |
8 | 使用java指令添加spark类库运行Spark程序 |
9 | 使用maven的exec执行插件运行java程序 |
10 | 配置eclipse的maven插件使用本地maven仓库服务器 |
11 | eclipse之下maven项目的配置编译运行 |
12 | eclipse之Scala插件的卸载与安装 |
13 | eclipse下构建Scala程序以及运行 |
14 | 通过Scalac命令手动编译scala程序并执行 |
15 | 命令行下通过maven编译运行Scala程序 |
16 | eclipse下通过maven+scala插件用Scala开发Spark应用 |