作者:京东物流 秦彪
工欲善其事必先利其器,在深入学习大数据相关技术之前,先手动从0到1搭建一个属于自己的本地Hadoop和Spark运行环境,对于继续研究大数据生态圈各类技术具有重要意义。本文旨在站在研发的角度上通过手动实践搭建运行环境,文中不拖泥带水过多讲述基础知识,结合Hadoop和Spark最新版本,帮助大家跟着步骤一步步实践环境搭建。
1. 总体运行环境概览
(1) 软件包及使用工具版本介绍表:
技术名称或工具名称 |
版本 |
备注 |
Hadoop |
hadoop-3.3.4.tar.gz |
|
VirtualBox |
6.0.0 r127566 |
虚拟机,推荐 |
CentOS |
centos7.3 |
|
JDK |
jdk-8u212-linux-x64.tar.gz |
1.8.0_111 |
Zookeeper |
zookeeper-3.6.tar.gz |
|
FileZilla |
FileZilla_3.34.0 |
文件传输工具,推荐 |
MobaXterm |
MobaXterm_Portable_v10.9 |
SSH连接工具,推荐 |
Idea |
IDEA COMMUNITY 2019.1.4 |
代码IDE开发工具,推荐 |