Ubuntu Linux虚拟机Hadoop伪分布式配置及WordCount实例验证

前提条件

  • 已安装 VMware Workstation Pro 虚拟机。
  • 已安装 Ubuntu Linux 系统。

Hadoop伪分布式安装

  1. 配置环境: 根据Hadoop版本要求,安装Java并配置环境变量。
  2. 下载Hadoop: 从Apache Hadoop官网下载对应版本的Hadoop。
  3. 解压Hadoop: 将下载的Hadoop解压到指定目录,例如 /usr/local/hadoop
  4. 配置Hadoop:
    • 修改hadoop-env.sh文件,设置JAVA_HOME环境变量。
    • 修改core-site.xml文件,配置Hadoop文件系统地址、临时目录等。
    • 修改hdfs-site.xml文件,配置Hadoop数据存储路径、副本数量等。
    • 修改mapred-site.xml文件,配置MapReduce框架运行方式。
    • 修改yarn-site.xml文件,配置YARN资源管理器地址、节点管理器地址等。
  5. 格式化HDFS: 执行命令 hdfs namenode -format 格式化Hadoop分布式文件系统。
  6. 启动Hadoop: 执行命令 start-dfs.shstart-yarn.sh 启动Hadoop服务。

WordCount实例验证

  1. 准备数据: 创建输入文件,例如 input.txt,包含若干英文单词。
  2. 上传数据: 使用Hadoop命令将 input.txt 文件上传到HDFS。
  3. 运行WordCount: 执行Hadoop自带的WordCount程序,统计输入文件中每个单词出现的次数。
  4. 查看结果: 查看WordCount程序的输出结果,验证是否统计正确。

验证Hadoop运行状态

可以通过以下方式验证Hadoop伪分布式模式是否运行正常:

  • Web UI: 通过浏览器访问Hadoop Web UI,查看集群状态、节点信息等。
  • Hadoop命令: 使用Hadoop命令行工具,例如 hdfs dfsyarn,进行文件操作、任务管理等操作。