Hadoop 及Spark 分布式HA运行环境搭建

时间:2023-02-21 12:09:29

作者:京东物流 秦彪

工欲善其事必先利其器,在深入学习大数据相关技术之前,先手动从0到1搭建一个属于自己的本地Hadoop和Spark运行环境,对于继续研究大数据生态圈各类技术具有重要意义。本文旨在站在研发的角度上通过手动实践搭建运行环境,文中不拖泥带水过多讲述基础知识,结合Hadoop和Spark最新版本,帮助大家跟着步骤一步步实践环境搭建。

1. 总体运行环境概览

(1) 软件包及使用工具版本介绍表:

技术名称或工具名称

版本

备注

Hadoop

hadoop-3.3.4.tar.gz

 

VirtualBox

6.0.0 r127566

虚拟机,推荐

CentOS

centos7.3

 

JDK

jdk-8u212-linux-x64.tar.gz

1.8.0_111

Zookeeper

zookeeper-3.6.tar.gz

 

FileZilla

FileZilla_3.34.0

文件传输工具,推荐

MobaXterm

MobaXterm_Portable_v10.9

SSH连接工具,推荐

Idea

IDEA COMMUNITY 2019.1.4

代码IDE开发工具,推荐