文件名称:机器网络环境-普中51单片机开发攻略--a7
文件大小:3.75MB
文件格式:PDF
更新时间:2024-07-02 23:40:54
spark hive hadoop habase java
1.1 硬软件环境 主机操作系统:Windows 64 位,双核 4 线程,主频 2.2G,10G 内存 虚拟软件:VMware® Workstation 9.0.0 build-812388 虚拟机操作系统:CentOS 64 位,单核 虚拟机运行环境: JDK:1.7.0_55 64 位 Hadoop:2.2.0(需要编译为 64 位) Scala:2.10.4 Spark:1.1.0(需要编译) Hive:0.13.1 1.2 机器网络环境 集群包含三个节点,节点之间可以免密码 SSH 访问,节点 IP 地址和主机名分布如下: 序号 IP 地址 机器名 类型 核数/内存 用户名 目录 1 192.168.0.61 hadoop1 NN/DN/RM Master/Worker 1 核/3G hadoop /app 程序所在路径 /app/scala-... /app/hadoop /app/complied 2 192.168.0.62 hadoop2 DN/NM/Worker 1 核/2G hadoop 3 192.168.0.63 hadoop3 DN/NM/Worker 1 核/2G hadoop 2 Spark 基础应用 SparkSQL 引入了一种新的 RDD——SchemaRDD,SchemaRDD 由行对象(Row)以及 描 述行对象中每列数据类型的 Schema 组成;SchemaRDD 很象传统数据库中的表。 SchemaRDD 可以通过 RDD、Parquet 文件、JSON 文件、或者通过使用 hiveql 查询 hive 数