超简单的CDH6部署和体验(单机版)

时间:2021-07-20 12:50:51

欢迎访问我的GitHub

https://github.com/zq2599/blog_demos

内容:所有原创文章分类汇总及配套源码,涉及Java、Docker、Kubernetes、DevOPS等;

为什么会超简单

借助ansible简化了CDH6部署工作的大部分内容,也降低了手工操作失误的概率,今天实战的内容,是在一台安装了ansible的电脑上(苹果或Linux操作系统)运行ansible脚本,远程操作一台CentOS服务器,在上面部署CDH6,并操作验证本次部署是否成功。

ansible学习

如果您想了解ansible,请参考《ansible2.4安装和体验》

为什么要部署单机版CDH6

主要是用来做为大数据技术的学习和开发的环境,并不适合生产;

实战简述

本次实战内容:部署、启动、验证,整个过程如下图所示:

超简单的CDH6部署和体验(单机版)

全文大纲

本文由以下章节组成:

  1. 环境信息;
  2. 下载文件;
  3. 文件摆放;
  4. CDH机器设置;
  5. ansible参数设置;
  6. 部署;
  7. 重启CDH服务器
  8. 启动;
  9. 设置;
  10. 修复问题;
  11. 体验;

环境信息

本次实战的操作过程如下图所示,安装ansible2.9版本的MabBook Pro电脑作为ansible服务器,执行playbook脚本,对一台CentOS服务器进行远程操作,完成CDH6的部署和启动:

超简单的CDH6部署和体验(单机版)

上图蓝色背景的电脑,可以是苹果操作系统,也可以是Linux操作系统,黄色背景的电脑要用来运行CDH6,必须是CentOS7.7操作系统(实在对不起,我这条件有限,别的系统没有试过)

整个实战涉及的环境版本信息如下:

  1. ansible服务器:macOS Catalina 10.15(实测用CentOS7.7也成功)
  2. CDH服务器:CentOS Linux release 7.7.1908
  3. cm版本:6.1.0
  4. parcel版本:6.1.1
  5. jdk版本:8u191

下载文件(ansible服务器)

本次实战用到的所有文件如下表所示:

编号 文件名 简介
1 jdk-8u191-linux-x64.tar.gz Linux版的jdk安装包
2 mysql-connector-java-5.1.34.jar mysql的JDBC驱动
3 cloudera-manager-server-6.1.0-769885.el7.x86_64.rpm cm的server安装包
4 cloudera-manager-daemons-6.1.0-769885.el7.x86_64.rpm cm的daemon安装包
5 cloudera-manager-agent-6.1.0-769885.el7.x86_64.rpm cm的agent安装包
6 CDH-6.1.1-1.cdh6.1.1.p0.875250-el7.parcel CDH应用离线安装包
7 CDH-6.1.1-1.cdh6.1.1.p0.875250-el7.parcel.sha CDH应用离线安装包sha验证码
8 hosts ansible用到的远程主机配置,里面记录了CDH6服务器的信息
9 ansible.cfg ansible用到的配置信息
9 ansible.cfg ansible用到的配置信息
10 cdh-single-install.yml 部署CDH时用到的ansible脚本
11 cdh-single-start.yml 初次启动CDH时用到的ansible脚本

上述11个文件的下载地址:

  1. jdk-8u191-linux-x64.tar.gz:Oracle官网可下,另外我将jdk-8u191-linux-x64.tar.gz和mysql-connector-java-5.1.34.jar一起打包上传到csdn,您可以一次性下载,地址:https://download.csdn.net/download/boling_cavalry/12098987
  2. mysql-connector-java-5.1.34.jar:maven*仓库可下,另外我将jdk-8u191-linux-x64.tar.gz和mysql-connector-java-5.1.34.jar一起打包上传到csdn,您可以一次性下载,地址:https://download.csdn.net/download/boling_cavalry/12098987
  3. cloudera-manager-server-6.1.0-769885.el7.x86_64.rpm:https://archive.cloudera.com/cm6/6.1.0/redhat7/yum/RPMS/x86_64/cloudera-manager-server-6.1.0-769885.el7.x86_64.rpm
  4. cloudera-manager-daemons-6.1.0-769885.el7.x86_64.rpm:https://archive.cloudera.com/cm6/6.1.0/redhat7/yum/RPMS/x86_64/cloudera-manager-daemons-6.1.0-769885.el7.x86_64.rpm
  5. cloudera-manager-agent-6.1.0-769885.el7.x86_64.rpm:https://archive.cloudera.com/cm6/6.1.0/redhat7/yum/RPMS/x86_64/cloudera-manager-agent-6.1.0-769885.el7.x86_64.rpm
  6. CDH-6.1.1-1.cdh6.1.1.p0.875250-el7.parcel:https://archive.cloudera.com/cdh6/6.1.1/parcels/CDH-6.1.1-1.cdh6.1.1.p0.875250-el7.parcel
  7. CDH-6.1.1-1.cdh6.1.1.p0.875250-el7.parcel.sha:https://archive.cloudera.com/cdh6/6.1.1/parcels/CDH-6.1.1-1.cdh6.1.1.p0.875250-el7.parcel.sha256 (下载完毕后,将扩展名从.sha256改为.sha)
  8. hosts、ansible.cfg、cdh-single-install.yml、cdh-single-start.yml:这四个文件都保存在我的GitHub仓库,地址是:https://github.com/zq2599/blog_demos ,这里面有多个文件夹,上述文件在名为ansible-cdh6-single的文件夹中,如下图红框所示:

    超简单的CDH6部署和体验(单机版)

文件摆放(ansible服务器)

如果您已经下载好了上述11个文件,请按照如下位置摆放,这样才能顺利完成部署:

  1. 在家目录下新建名为playbooks的文件夹:mkdir ~/playbooks
  2. 把这四个文件放入playbooks文件夹:hosts、ansible.cfg、cdh-single-install.yml、cdh-single-start.yml
  3. 在playbooks文件夹里新建名为cdh6的子文件夹;
  4. 把这七个文件放入cdh6文件夹(即剩余的七个):jdk-8u191-linux-x64.tar.gz、mysql-connector-java-5.1.34.jar、cloudera-manager-server-6.1.0-769885.el7.x86_64.rpm、cloudera-manager-daemons-6.1.0-769885.el7.x86_64.rpm、cloudera-manager-agent-6.1.0-769885.el7.x86_64.rpm、CDH-6.1.1-1.cdh6.1.1.p0.875250-el7.parcel、CDH-6.1.1-1.cdh6.1.1.p0.875250-el7.parcel.sha
  5. 摆放完毕后目录和文件情况如下图,再次提醒,文件夹playbooks一定要放在家目录下(即:~/):

    超简单的CDH6部署和体验(单机版)

CDH服务器设置

本次实战中,CDH服务器hostname是deskmini,IP地址是192.168.50.134,需要做以下操作:

  1. 请确保CDH服务器能SSH登录(用户名+密码);
  2. SSH登录到部署CDH的机器;
  3. 检查/etc/hostname文件是正确,如下图:

    超简单的CDH6部署和体验(单机版)
  4. 修改/etc/hosts文件,将自己的IP地址和hostname配置上去,如下图红框所示(事实证明这一步很重要,如果不做可能导致在部署时一直卡在"分配"阶段,看agent日志显示agent下载parcel的进度一直是百分之零):

    超简单的CDH6部署和体验(单机版)

ansible参数设置(ansible服务器)

ansible参数设置的操作设置很简单,就是把部署CDH的机器信息配置好即可,包括IP地址、登录账号、密码等,修改~/playbooks/hosts文件,内容如下所示,您需要根据自身情况修改deskmini、ansible_host、ansible_port、ansible_user、ansible_password:

[cdh_group]
deskmini ansible_host=192.168.50.134 ansible_port=22 ansible_user=root ansible_password=888888

部署(ansible服务器)

  1. 进入~/playbooks目录;
  2. 检查ansible远程操作CDH服务器是否正常,执行命令ansible deskmini -a "free -m",正常情况下显示CDH服务器的内存信息,如下图:

    超简单的CDH6部署和体验(单机版)
  3. 执行此命令开始部署:ansible-playbook cdh-single-install.yml
  4. 整个部署过程涉及在线安装、传递文件等耗时的操作,因此请耐心等待(半小时左右),我在部署期间遭遇网络问题导致失败退出,待网络正常后再重新执行上述操作即可,ansible保证了操作的幂等性;
  5. 部署成功如下图所示:

    超简单的CDH6部署和体验(单机版)

重启CDH服务器

由于修改了selinux和swap的设置,需要重启操作系统才能生效,因此请重启CDH服务器;

启动(ansible服务器)

  1. 等待CDH服务器重启成功;
  2. 登录ansible服务器,进入~/playbooks目录;
  3. 执行此命令开始初始化数据库,然后启动CDH:ansible-playbook cdh-single-start.yml
  4. 启动完成输出如下信息:

    超简单的CDH6部署和体验(单机版)

设置(网页)

CDH已经启动,CDH服务器对外提供了web服务,可以通过浏览器来操作:

  1. 浏览器访问:http://192.168.50.134:7180 ,如下图,账号密码都是admin:

    超简单的CDH6部署和体验(单机版)
  2. 一路next,在选择版本页面选择60天体验版:

    超简单的CDH6部署和体验(单机版)
  3. 选择主机页面可见deskmini:

    超简单的CDH6部署和体验(单机版)
  4. 选择下图红框中的CDH版本,因为对应的离线包已经复制到CM的本地仓库,无需下载:

    超简单的CDH6部署和体验(单机版)
  5. 下载瞬间完成,等候分配、解压、激活:

    超简单的CDH6部署和体验(单机版)
  6. 选择服务的页面,我这里选择了Data Engineering,因为需要spark:

    超简单的CDH6部署和体验(单机版)
  7. 选择机器的页面,全选deskmini:

    超简单的CDH6部署和体验(单机版)
  8. 数据库设置页面,请和下图保持一致,数据库主机都是localhost,每个数据库的名称、用户名、密码都相同,分别是:hive、amon、rman、oozie、hue

    超简单的CDH6部署和体验(单机版)
  9. 参数设置页面,请根据磁盘情况适当调整存储路径,例如我的/home目录空间充足,这里都改到了/home目录下面:

    超简单的CDH6部署和体验(单机版)
  10. 等待启动完成:

    超简单的CDH6部署和体验(单机版)
  11. 等待启动完成后,如下图所示:

    超简单的CDH6部署和体验(单机版)

    至此,所有服务启动完成,不过有两个小问题需要修复;

修复HDFS问题

  1. 服务整体情况如下图,HDFS服务有问题,点击红框中的图标:

    超简单的CDH6部署和体验(单机版)
  2. 点击下图红框位置:

    超简单的CDH6部署和体验(单机版)
  3. 故障详情如下图所示,属于常见的副本不足的问题:

    超简单的CDH6部署和体验(单机版)
  4. 如下图所示,修改HDFS的配置dfs.replication,从3改成1,然后保存更改:

    超简单的CDH6部署和体验(单机版)
  5. 重启服务:

    超简单的CDH6部署和体验(单机版)
  6. 经过上述设置,副本数已经调整为1,但是已有文件的副本数还没有同步,需要重新做设置,SSH登录到电脑deskmini上;
  7. 执行命令vi /etc/passwd,找到账号hdfs的配置,如下图红框所示,/sbin/nologin这样的shell会导致切换到hdfs账号失败:

    超简单的CDH6部署和体验(单机版)
  8. 将上述红框中的内容改为/bin/bash,修改后如下图红框所示:

    超简单的CDH6部署和体验(单机版)
  9. 执行命令su - hdfs,即可切换到hdfs账号,此时执行以下命令即可完成副本数设置:
hadoop fs -setrep -R 1 /
  1. 服务已经全部正常了:

    超简单的CDH6部署和体验(单机版)

调整YARN参数避免spark-shell启动失败

  1. YARN默认给容器分配的内存过小,导致启动spark-shell失败,需要调整YARM相关的内存参数:

    超简单的CDH6部署和体验(单机版)
  2. 在YARN的配置页面,调整yarn.scheduler.maximum-allocation-mb和yarn.nodemanager.resource.memory-mb这两个参数的值,我这里将这个两个参数的值都改成8G(请按照自己电脑实际硬件配置来调整),如下图:

    超简单的CDH6部署和体验(单机版)
  3. 重启YARN:

    超简单的CDH6部署和体验(单机版)
  4. 执行spark-shell命令之前,先执行命令su - hdfs切换到hdfs账号;
  5. 这次终于成功进入spark-shell交互模式:

    超简单的CDH6部署和体验(单机版)

    至此,CDH6的部署、启动、设置都已经完成,接下来体验一下大数据服务;

体验HDFS和Spark

接下来运行一个Spark任务,经典的WordCount:

  1. 准备一份文本文件,里面是英文内容,您可以下载这个文件:https://raw.githubusercontent.com/zq2599/blog_demos/master/files/GoneWiththeWind.txt
  2. 登录SSH,切换到hdfs账号;
  3. 创建HDFS文件夹:
hdfs dfs -mkdir /input
  1. 将文本文件上传到/input目录:
hdfs dfs -put ./GoneWiththeWind.txt /input
  1. 执行命令spark-shell,启动一个worker;
  2. 输入以下命令,即可完成一次WorkCount任务,192.168.50.134是deskmini的IP地址:
sc.textFile("hdfs://192.168.50.134:8020/input/GoneWiththeWind.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).saveAsTextFile("hdfs://192.168.50.134:8020/output")
  1. 执行完毕后,下载结果文件:
hdfs dfs -get /output/*
  1. 上述命令将spark任务的结果文件part-00000、part-00001下载到本机,用vi命令查看文件,如下图,可见WorkCount执行成功:

    超简单的CDH6部署和体验(单机版)
  2. 在浏览器上查看历史任务,地址是:http://192.168.50.134:18088 ,可见此次任务的详情:

    超简单的CDH6部署和体验(单机版)

    至此,CDH6的部署、设置、体验都已经完成,如果您正在搭建自己的学习或者开发环境,希望本文能给您一些参考。

深度定制

整个实战虽然避免了传统部署过程中的大量手动操作,但弊端也很明显:所有路径、文件名、服务版本都是固定的,不能做任何设置,虽然ansible也支持变量,但是如果变量太多也会给您带来困扰,所以,如果您有修改版本或路径的需求,建议您自行修改cdh-single-install.yml、cdh-single-start.yml的内容,所有文件和版本信息都在里面。

欢迎关注公众号:程序员欣宸

微信搜索「程序员欣宸」,我是欣宸,期待与您一同畅游Java世界...

https://github.com/zq2599/blog_demos

超简单的CDH6部署和体验(单机版)的更多相关文章

  1. 超简单的 Docker部署 SpringBoot项目 步骤

    很久之前就用过,一直没有好好写篇博客,今天就总结一下 创建一个 SpringBoot项目 创建一个SpringBoot项目并打成jar包,结构如图 编写 Dockerfile文件 FROM java: ...

  2. 第一篇 UEditor入门部署和体验

    UEditor 是由百度「FEX前端研发团队」开发的所见即所得富文本web编辑器,具有轻量,可定制,注重用户体验等特点,开源基于MIT协议,允许*使用和修改代码. UEditor富文本编辑器,轻量, ...

  3. 超简单的NDK单步调试方法

    令人兴奋的是,ADTr20已经支持JNI单步调试,再也不需要如上这么麻烦的步骤了 你现在需要做的只需以下2步: 1.使用ndk-build编译时,加上如下参数NDK_DEBUG=1,之后生成so文件之 ...

  4. 这些优化 Drupal 网站速度的超简单办法,你忽略了多少?

    “怎么样能让我的 Drupal 网站更快一些?”是我们最常遇到的一个问题.站点速度确实非常重要,因为它会影响你的 SEO排名效果.访客是否停留以及你自己管理网站所需要的时间. 今天我们就来看看那些通过 ...

  5. 程序员,一起玩转GitHub版本控制,超简单入门教程 干货2

    本GitHub教程旨在能够帮助大家快速入门学习使用GitHub,进行版本控制.帮助大家摆脱命令行工具,简单快速的使用GitHub. 做全栈攻城狮-写代码也要读书,爱全栈,更爱生活. 更多原创教程请关注 ...

  6. 超简单的全新win10安装

    1.准备工作! 这里说一下需要装系统的东西: 至少8G的U盘或内存卡 一台Windows电脑 在要安装的电脑上至少有16G的空间,最好至少64G. 2.现成电脑下载文件(已经有重装系统U盘跳过这一步) ...

  7. 超简单让.NET Core开发者快速拥有CI/CD的能力-Docker版本

    超简单让.NET Core开发者快速拥有CI/CD的能力-Docker版本 前言 上一篇自动化测试,全面且详细的介绍了从零开始到发布版本的步骤,这是传统的方式,本次为大家带来的是如何在5分钟内使用上d ...

  8. 超简单!asp.net core前后端分离项目使用gitlab-ci持续集成到IIS

    现在好多使用gitlab-ci的持续集成的教程,大部分都是发布到linux系统上的,但是目前还是有很大一部分企业使用的都是windows系统使用IIS在部署.NET应用程序.这里写一下如何使用gitl ...

  9. 超简单集成华为HMS ML Kit文本识别SDK,一键实现账单号自动录入

    前言   在之前的文章<超简单集成华为HMS Core MLKit通用卡证识别SDK,一键实现各种卡绑定>中我们给大家介绍了华为HMS ML Kit通用卡证识别技术是如何通过拍照自动识别卡 ...

随机推荐

  1. 在真机调试 iOS 应用:理解 Certificates&comma; Identifiers &amp&semi; Profiles

    No matching provisioning profiles found. No matching code signing identity found. Your account alrea ...

  2. mysql where 1&equals;1和 1&equals;0 的作用

    本文来自网络 where 1=1; 这个条件始终为True,在不定数量查询条件情况下,1=1可以很方便的规范语句. 一.不用where  1=1  在多条件查询中的困扰 举个例子,如果您做查询页面,并 ...

  3. php--如何解决网站分页导致的SEO问题

    如何解决网站分页导致的SEO问题 分页(pagination)是一种自动分页机制,可以将移动Web窗体中的内容分割成一组组较小的页进行呈现,以适合于特定的设备,该机制还呈现可用于浏览到其他页的用户界面 ...

  4. Main&lpar;&rpar;方法

    C#是从方法Main()开始执行的.这个方法必须是类或结构的静态方法,并且其返回类型必须是int或void .虽然显式指定p山屺修饰符是很常见的,因为按照定义,必须在程序外部调用该方法,但我们给该入口 ...

  5. ActionBar Fragment运用最佳实践

    ActionBar Fragment运用最佳实践  

  6. IQ调制、整形滤波器与星座映射

    http://www.cnblogs.com/touchblue/archive/2013/01/15/2861952.html 现代通信中.IQ调制基本上属于是标准配置,由于利用IQ调制能够做出全部 ...

  7. 用socket发送信息在浏览器上显示出来

    服务端代码: import socket def main(): sock=socket.socket() sock.bind(('localhost',8089)) sock.listen(5) w ...

  8. Windows Embedded Compact 7初体验

    Windows Embedded Compact 7初体验 Windows Embedded Compact 7已经出来半年多了,一直没时间搞.最近它又出了Refresh的版本,电脑也换了个1T的硬盘 ...

  9. DIV盒子介绍

    1.盒子模型=网页布局的基石,由四部分组成: 边框(border).外边距(margin).内边距(padding).盒子中的内容(content) 2.设置顺序是顺时针:上.右.下.左. 三个值(上 ...

  10. &lbrack;PHP&rsqb; PHP的纯CPU基准测试&lpar;PHP5&period;5&period;9 vs PHP7&period;2&period;1&rpar;

    PHP的纯CPU基准测试(PHP5.5.9 vs PHP7.2.1): 1.bench.php 可在PHP源代码的 php-src/Zend 目录 2.micro_bench.php 也可以在 PHP ...