大数据学习路线版（附全套视频教程及网盘下载）

什么是大数据？

大数据（BIG DATA）是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的5V特点：VOLUME（大量）、VELOCITY（高速）、VARIETY（多样）、VALUE（低价值密度）、VERACITY（真实性）。

为什么要学习大数据？

目前，全球数据呈现爆发增长、海量集聚的特点。大数据计算技术完美地解决了海量数据的收集、存储、计算、分析的问题。预计到2022年大数据市场规模达800亿美元，年均实现15.37%的增长，大数据时代开启人类社会利用数据价值的另一个时代。国家对大数据战略政策的制定和实施，也是大数据市场不断发展的有力条件。

应用领域广：产业规模空前，各行持续发力：包含金融、政务、交通、电信、商贸、医疗、教育、旅游、工业、农业等行业领域。
就业薪资高：行业平均月薪22690元，30K-50K占29.7%，20K-30K占43.2%，15K-20K占12.2%，10K-15K占2.7%，6K-8K占8.1%。
缺口大：行业日招聘岗位量154598个，智联日招聘量50916条，前程无忧日均招聘量55804条，猎聘日均招聘量1万+条，职友集日均招聘量37878条。
政策支持：国家大力推动实施大数据发展战略，行业政策环境良好。

十二届全国人大二次会议*工作报告：“要设立新兴产业创业创新平台，在新一代移动通信、集成电路、大数据、先进制造等方面赶超先进。”

十八大期间国务院颁发文件：“《促进大数据发展行动刚要》的颁发，证明大数据成为推动经济转型发展的新动力。”

党的十九大报告中提出：“加快建设制造强国，加快发展先进制造业，推动互联网、大数据、人工智能和实体经济深度整合。”

大数据学习路线大纲：

第一阶段：Java语言基础阶段

1.1 Java编程语言基本概述

1.1.1 计算机语言与编程概述 1.1.2 介绍Java生态圈……

1.2 Java基础语法

1.2.1 分支循环语句 1.2.2 if分支结构……

1.3 面向对象编程

1.3.1 软件的生命周期 1.3.2 软件的设计原则……

1.4 面向对象高级编程

1.4.1包 (package) 的管理与作用 1.4.2JavaBean规范……

1.5 Java中的常用类库

1.5.1包装类（Wrapper Class） 1.5.2装箱和拆箱……

1.6 枚举和异常类

1.6.1枚举定义和使用 1.6.2通过枚举的class文件查看底层实现……

1.7 Java数据结构和集合框架泛型

1.7.1数据结构举例剖析 1.7.2数组的定义和使用方式……

1.8 Java中的IO流

1.8.1File类的常用操作 1.8.2递归遍历文件夹……

1.9 Java中的多线程

1.9.1程序，进程，线程的关系详解 1.9.2线程的原理……

1.10 Java中网络编程和反射

1.10.1网络通讯协议 1.10.2网络七层协议……

1.11 Java8新特性

1.11.1Lambda表达式 1.11.2Java可以函数式编……

1.12 Java基础加强

1.12.1Tomcat介绍与搭建 1.12.2软件B/S和C/S……

第二阶段：Linux系统&Hadoop生态体系

01、 Linux入门

02 、常用基本命令

03 、系统管理

04 、Linux操作增强

05 、Linux shell编程

06 、Hadoop生态

07、分布式系统概述

08、 Hadoop入门

09、 Hadoop伪分布式

10、 Hadoop全分布式

11、 HDFS基本概念

12 、HDFS的应用开发

13、 HDFS的IO流操作

14 、NameNode工作机制

15、 DataNode工作机制

16、 Zookeeper入门

17 、Zookeeper详解

18 、HA框架原理

19、 Hadoop-HA集群配置

20 、MapReduce框架原理

21 、Shuffle机制

22、 Mapreduce案例一

23、 Mapreduce案例二

24 、Hive入门

25 、Hive DDL数据定义

26 、Hive分区表

27 、Hive分桶表

28、 Hive查询

29 、Hive的高级查询Join与排序

30 、Hive的函数

31、 Hive DML数据管理

32 、Hive文件存储

33、 Hive企业级调优

34 、Hive企业级调优二

35、 Hive企业级项目实战

36、 Flume详解

37、 Sqoop详解

38、 Hbase概念

39 、Hbase的操作

40 、Hbase整合

41 、Hbase的实战和优化

第三阶段：分布式计算框架

3.1 scala

3.1.1 安装idea配置环境变量 3.1.2 Maven本地库配置 3.1.3 JDK环境变量配置 3.1.4 idea版本配置……

3.2 Spark Core

3.2.1 大数据架构体系 3.2.2 架构详解 3.2.3 Spark集群介绍 3.2.4 Spark集群配置……

3.3 Spark SQL

3.3.1 Spark SQL的发展历史 3.3.2 Spark SQL的原理介绍 3.3.3 DataFrame概述 3.3.4 创建DataFrame的方式……

3.4 Spark Streaming

3.4.1 Spark Streaming概述 3.4.2 Spark Streaming的原理介绍 3.4.3 Spark Streaming与Storm对比 3.4.4 DStream的概念……

3.5 kafka

3.5.1 Kafka的基本概念3.5.2 Kafka的发展历史3.5.3 Kafka的应用背景3.5.4 JMS基础……

3.6 ElasticSearch

3.6.1 全文检索技术简介 3.6.2 ES安装配置入门 3.6.3 ES插件安装 3.6.4 ES基本操作……

3.7 Logstash

3.7.1 Logstash介绍 3.7.2 Input组件介绍 3.7.3 Filter组件介绍 3.7.4 Output组件介绍……

3.8 Kibana

3.8.1 Kibana介绍 3.8.2 Kibana环境准备 3.8.3 Kibana安装 3.8.4 Kibana演示……

3.9 Kibana

3.9.1 什么是NoSQL 3.9.2 NoSQL数据库的分类 3.9.3 Redis介绍 3.9.4 Redis发展历史……

第四阶段：大数据实战项目

4.1 互金领域-广告投放

项目介绍：构建广告投放平台，进行广告投放业务，吸引潜在客户，推广产品，包含投放微服务平台、竞价模块、客户群体画像、千人千面推荐产品。

4.2 电商平台

项目介绍：埋点业务，进行用户细分画像、建立信用体系、进行线上各类活动。

4.3 共享单车

项目介绍：依据用户行为轨迹构成出行规律，根据用户群体出行规律、区域情况等动态调度用车情况。

4.4 工业大数据

项目介绍：国家电网_省级输／变电监控项目：监控线路的传感设备，确保设备安全、降低故障成本，动态监控线路、变电站二次设备工作情况、报警自动化。

4.5 交通

项目介绍：贵州交通厅，交通离线/实时监控项目：通过交通卡口采集实时数据，动态监控全省各道路通行和事故状况，避免拥堵、避免交通事故、精准测速、防止套牌和提供便捷最佳出行方案、预测拥堵系数，为各级提供最优道路规划方案。

4.6 旅游

项目介绍：安顺智慧旅游，整合各类旅游相关应用系统及信息资源，在*、交通、工商等相关领域实现信息共享、协同合作，共同打造良性的旅游云生态系统。

4.7 医疗

项目介绍：某市人民医院，随着老年化的持续增加，患病率越来越高。增加大数据平台，采集医疗相关数据，提高诊断的准确性，预防一些疾病的发生，监控相关病情康复进展，真正实现解决看病难，降低发病率等。

第五阶段：大数据分析

5.1 Data Analyze数据分析基础

5.1.1 AI&&机器学习&&深度学习概论 5.1.2 数据科学……

5.2 工作环境准备

5.2.1 数据分析中常用的Python技巧 5.2.2 Python字符串操作……

5.3 数据可视化的概念与准则

5.3.1 Python Matplotlib库 5.3.2 Matplotlib架构……

5.4 Python机器学习

5.4.1 机器学习的基本概念 5.4.2 分类算法与回归算法……

5.5 选择模型

5.5.1 训练模型 5.5.2 测试模型……

5.6 构建树的过程

5.6.1 sklearn中决策树重要的参数 5.6.2 通过决策树可以得到特征的重要性得分……

5.7 网格搜索

5.7.1 10折交叉验证 5.7.2 模型评价指标及模型选择……

5.8 sklearn中有三类朴素贝叶斯算法

5.8.1 Bernoulli模型 5.8.2 Multinomial模型……

5.9 颜色特征

5.9.1 纹理特征 5.9.2 形状特征……

5.10 手写数字识别

5.10.1 人脸识别 5.10.2 物体识别……

5.11 文本的基本组成

5.11.1 Python常用文本处理函数（字符串操作） 5.11.2 正则表达式……

5.12 文本的基本组成

5.12.1 主题模型及LDA 5.12.2 隐含狄利克雷分布(Latent Dirichlet Allocation, LDA)……

大数据视频教程：

教程一、2019大数据初识与职业发展

本教程介绍了大数据中hadoop的基本概念与生态体系，以及在企业中的案例应用。最后搭建一个Hadoop环境，并且展示Hadoop如何进行文分析与统计。

2019千锋大数据初识与职业发展https://pan.baidu.com/s/17rJ2iBRDSlfImaKtx8_kDA

教程二、 Hadoop生态圈视频教程

本教程全面涵盖hadoop生态圈技术，内容涉及linux、hdfs、mapreduce、zookeeper、hive、sqoop等，对比教学，从基础到进阶，轻松搞定hadoop生态圈。

5天学会Hadoop基础教程 https://pan.baidu.com/s/1gMrPQKKt04FTsdf6Qc8IZw 提取码：4p2o

教程三、最新Hive入门教程

在企业中，离线数据的来源主要是已存在的有固定格式的文件，或数据库中积累的结构化的数据，如何高效的进行数据的管理以及基本的统计分析是每个大数据开发者必须掌握的技能。

教程四、2019最新Hadoop入门教程

Hadoop入门教程全面涵盖hadoop生态圈技术，内容涉及linux、hdfs、mapreduce、zookeeper、hive、sqoop等。

2019最新Hadoop入门教程https://pan.baidu.com/s/1NfMUR4zTap8IRrNNfsCE4A 提取码：phzx

教程五、Hive课程详解

在企业中，离线数据的来源主要是已存在的有固定格式的文件，或数据库中积累的结构化的数据，如何高效的进行数据的管理以及基本的统计分析是每个大数据开发者必须掌握的技能，本教程在Hadoop集群的基础上，系统的讲述了Hive的作用，安装部署过程，常用的内置函数，UDF的引入方式，数据导入导出的相关组件等，并结合一些企业的场景进行了说明。

Hive入门必学教程 https://pan.baidu.com/s/1I-RsrZPifCfDOFNdJ57-PA 提取码：rh76

教程六、统计机器学习算法精讲

本教程全方面的介绍决策树是一种基本的分类与回归方法，学习通常包含三个步骤：特征选择、决策树的生成和决策树的剪枝。

2019大数据统计机器学习算法精讲https://pan.baidu.com/s/1aFPKBgCcZ1SdYpWW3vt44Q 提取码：ges5

教程七、 Spark基础及源码分析

Apache Spark 是在大数据工业界里用的最多的基于内存的技术框架，尤其是RDD的特性以及应用，对帮助理解Spark和任务提交的流程以及缓存机制。

全套Spark视频教程 https://pan.baidu.com/s/1235kpqE4UtIaESxD_qu6Ew 提取码：43j4

教程八、玩转数据可视化

数据可视化相关技术主要为了提高数据的可读性，将数据以图表的方式进行展示，广泛应用于各大平台及商业智能领域，便于数据结果的解读和分享。

2019最新快速玩转HBase~连载https://pan.baidu.com/s/1RbjmaBDCR4jJmy6D1JDRRQ 提取码：jsye

教程九、机器学习之逻辑回归教程

分类（逻辑回归）和回归（线性回归）。当你使用逻辑回归或者线性回归建立你整个流程的时候（越简单越好），你会慢慢地熟悉机器学习里的一些概念。你也会知道如何准备你的数据，以及这过程中有什么挑战（比如填补缺失值和特征选择）。

大数据教程-机器学习之逻辑回归 https://pan.baidu.com/s/1ElzIP6npB6f-s1ioo3X0Og 提取码：jb7d

教程十、机器学习入门篇

本课程全方面的介绍机器学习的监督学习、半监督学习和非监督学习的概念，详细介绍数据 + 算法 = AI应用。

大数据教程-机器学习之线性回归 https://pan.baidu.com/s/1i3gpkVrrJGzVi3qeD0wmjw 提取码：vgop

教程十一、大数据高级教程-SVM模型

经典的支持向量机算法只给出了二类分类的算法，而在数据挖掘的实际应用中，一般要解决多类的分类问题。可以通过多个二类支持向量机的组合来解决。主要有一对多组合模式、一对一组合模式和SVM决策树；再就是通过构造多个分类器的组合来解决。主要原理是克服SVM固有的缺点，结合其他算法的优势，解决多类问题的分类精度。如：与粗集理论结合，形成一种优势互补的多类问题的组合分类器。