一、前言

在大数据处理领域,Cloudera Distribution Including Apache Hadoop (CDH) 是一个重要的工具集,提供全面的大数据解决方案。将详细介绍如何在 CentOS 7.4 环境下进行 CDH 5.13.0 的离线安装,适用于生产环境与实验环境。

二、准备工作

  1. 环境准备:确保服务器已安装 CentOS 7.4 系统。
  2. 软件下载:提前下载好 CDH 5.13.0 的相关安装包和依赖包,包括 Cloudera Manager 等核心组件。
  3. 本地 YUM 源配置:配置本地的 YUM 仓库,使离线环境下能够完成安装。

三、关键知识点详解

1. CDH简介

CDH 5.13.0 是 Cloudera 公司提供的大数据平台,集成了 Apache Hadoop 及其生态系统的各个组件。它包括 HDFS、YARN、MapReduce、HBase、Hive 等核心组件,并集成了 Spark 2.0。此外,还提供了 Cloudera ManagerCloudera Navigator 等管理工具。

2. 系统要求

  • 操作系统:CentOS 7.4
  • 数据库:MySQL 或 PostgreSQL 用于 Cloudera Manager 后端数据库。
  • JDK版本:安装支持的 Oracle JDK 7

四、安装步骤

  1. 配置本地 YUM 仓库:将所有下载好的 CDH 和依赖包放入本地仓库目录,使用 createrepo 命令生成仓库索引。
  2. 安装 Cloudera Manager:使用本地 YUM 仓库安装 Cloudera Manager,配置数据库连接后,完成 Cloudera Manager 的部署。
  3. 安装 CDH 集群组件:在 Cloudera Manager 中添加和安装所需的 CDH 组件。
  4. 安装 Spark 2.0:在 Cloudera Manager 中部署 Spark 2.0 组件,并进行配置。

五、总结

本教程详细介绍了如何在 CentOS 7.4 环境下离线安装 CDH 5.13.0Spark 2.0,适用于没有外网连接的生产环境。通过本地 YUM 仓库Cloudera Manager,可以实现高效的离线安装过程,确保集群组件的正确部署与配置。