需求说明

统计HDFS上的文件的词频,并将统计结果输出到HDFS

核心特点

  • 使用Maven进行jar包管理。
  • 核心处理部分封装为接口(支持可插拔设计)。
  • 路径、文件名等变量配置在自定义配置文件中,方便修改。
  • 通过反射机制动态创建对象(实现接口)。
  • 代码结构良好,具备较强的可插拔性

主要实现流程

  1. 读取HDFS上的文件数据。
  2. 对文件内容进行词频统计
  3. 将统计结果写回到HDFS中指定路径。
  4. 配置管理:路径和文件名等信息可通过配置文件进行修改,增强灵活性。

技术栈

  • HDFS Java API
  • Maven
  • 反射机制
  • 自定义配置文件

通过这些技术实现了一个高效且可维护的HDFS文件词频统计系统,且代码架构清晰,易于扩展。