大数据工程师需要的技能点:
大数据通用处理平台
· Spark
· Flink
· Hadoop
分布式文件存储
· HDFS
· KUDU
分布式内存存储
· Alluxio(Tachyon)
资源调度
· Yarn
· Mesos
机器学习工具
· Mahout
· Spark Mlib
· TensorFlow (Google 系)
· Amazon Machine Learning
· DMTK (微软分布式机器学习工具)
数据分析/数据仓库(SQL类)
· Pig
· Hive
· kylin
· Spark SQL,
· Spark DataFrame
· Impala
· Phoenix
· ELK
§ ElasticSearch
§ Logstash
§ Kibana
消息队列
· Kafka(纯日志类,大吞吐量)
· RocketMQ
· ZeroMQ
· ActiveMQ
· RabbitMQ
流式计算
· Storm/JStorm
· Spark Streaming
· Flink
日志收集
· Scribe
· Flume
编程语言
· Java
· Python
· R
· Ruby
· Scala
数据分析挖掘
· MATLAB
· SPSS
· SAS
数据可视化
· R
· D3.js
· ECharts
· Excle
· Python
机器学习
机器学习基础
· 聚类
· 时间序列
· 推荐系统
· 回归分析
· 文本挖掘
· 决策树
· 支持向量机
· 贝叶斯分类
· 神经网络
机器学习工具
· Mahout
· Spark Mlib
· TensorFlow (Google 系)
· Amazon Machine Learning
· DMTK (微软分布式机器学习工具)
算法
一致性
· paxos
· raft
· gossip
数据结构
· 栈,队列,链表
· 散列表
· 二叉树,红黑树,B树
· 图
常用算法
· 排序
§ 插入排序
§ 桶排序
§ 堆排序
§ 快速排序
· 最大子数组
· 最长公共子序列
· 最小生成树
· 最短路径
· 矩阵的存储和运算
云计算
· 云服务
§ SaaS
§ PaaS
§ IaaS
· Openstack
· Docker