大数据基础技术学习路线图

时间:2023-01-08 17:39:48

一. Python学习路线图

1. 基础语法结构(语句块、程序输入输出、文档字符串、日期和时间函数等)

2. 变量和赋值、数字、字符串、列表、元组、字典

3. 代码块及缩进对齐

4. if语句、判断条件

5. Python流程控制语句:while循环、for循环与range()内建函数列表解析

6. 文件对象:文件打开方法、文件输入输出

7. 函数:函数创建、参数等

8. 模块:模块的导入及加载等

9. 语句和语法

10. 数字对象详解,数字运算符及其内建函数等

11. 字符串详解:字符串切片、相关方法

12. 列表:更新、访问及相关函数

13. 元组操作符及内建函数应用

14. 字典详解:创建、更新及相关方法等

15. 集合:可变与不可变集合以及其关内建函数

16. 操作mysql数据库

17. XML解析

18. 熟悉os模块:访问文件系统的主要方法

19. 异常:捕获异常、处理异常

20. 函数高级应用:闭包、装饰器

21. 函数式编程:偏函数、递归函数应用

22. 模块和包:创建及使用方法

23. 面向对象编程

分享之前我还是要推荐下我自己创建的大数据分析分享群 119599574,这是大数据学习交流的地方,不管你是小白还是大牛,小编都欢迎,今天的资料已经上传到群里,不定期分享干货,包括我整理的一份适合2018年学习的大数据分析以及可视化的资料和零基础入门教程,欢迎初学和进阶中的小伙伴。

二.Hadoop学习路线图

1. 了解Hadoop生态系统概述以及版本演化

2. HDFS文件系统原理、特性与基本架构

3. HDFS文件系统API编程

a) 使用 FileSystem API 操作 HDFS 中内容

b) 了解 Configuration,Path ,FileStatus,FSDataInputStream,FSDataOutputStream等API类的使用

4. HDFS文件系统命令行操作(hdfs fs -help操作命令)

4. YARN应用场景、基本架构与资源调度

5. Map-Reduce原理、体系架构和工作机制

6. Map-Reduce 编程实践(java python等多语言编程)

7. Map-Reduce高级编程实践

a) 重要的组件了解

i. InputFormat 输入格式(FileInputFormat,TextInputFormat,SequenceInputFormat等)

ii. OutputFormat 输出格式(FileOutputFormat,TextOutputFormat等)

iii. 多种输入与输出使用(MultipleInputs 多种输入,MultipleOututs 多种输出)

iv. Combiner

v. Partitioner

vi. RecordReader

vii. Writable 接口

viii. WritableComparable 接口与 RawComparator 接口

ix. 如何自定义的 Writable 类

b) 计数器(内置计数器,如何自定义计数器)

i. MapReduce 任务计数器:TaskCounter

ii. 文件系统计数器:FileSystemCounter

iii. 输入文件计数器:FileInputFormatCounter

iv. 输出文件计数器:FileOutputFormatCounter

v. 任务计数器:JobCounter

c) join(Map端Join,Reduce)

d) 排序(全排序,部分排序,二次排序)

8. Hadoop运维工具学习

 dfsadmin/mradmin/balancer/distcp/fsck/job等

三.Hive学习路线图

1. hive体系架构

2. hive的访问方式(CLI, Hive Server2, HWI等)

3. HQL

a) 基础语法:DDL,DML

b) 数据类型

c) Hive高级查询语句(group by操作,Join操作,Order by和Sort by,Union all等)

4. 存储类型

a) TextFile

b) Sequence File

c) RCFile

d) ORCFile

5. 函数

a) 自带函数

b) 自定义函数(UDF,UDTF,UDAF)

四.Spark学习路线图

1.Spark基本架构

2.Spark工作机制

3.Spark计算模型

4. scala语言的学习

5.Spark编程

a) 掌握基本实例(wordcount join mapjoin 排序)

6.了解Spark sql 交互式查询

a) 运行架构

b) 基本使用

7.Spark Streaming

a) 基本架构

b) 运行原理

c) 运用场景

d) 编程模型DStream

e) 程序调优方式

8.机器学习

a) 定义

b) 分类

c) 常用算法

d) Mllib(概要,构成,运行架构,了解具体实例)