Hadoop 核心概念

Hadoop是一个开源的分布式计算框架,用于存储和处理大规模数据集。其核心组件包括:

  • HDFS(Hadoop分布式文件系统): 将大文件分割成块,分布存储在集群节点上,提供高容错性和高吞吐量。
  • YARN(Yet Another Resource Negotiator): 负责集群资源管理和调度,为应用程序分配资源。
  • MapReduce: 一种编程模型,用于大规模数据处理,将任务分解为 map 和 reduce 两个阶段,并行执行。

Hadoop 特点

  • 高可靠性: 通过数据冗余和节点故障自动恢复机制,确保数据安全和系统稳定性。
  • 高可扩展性: 可线性扩展至数千个节点,处理 PB 级数据。
  • 高吞吐量: 并行处理能力强,可高效处理大规模数据集。
  • 低成本: 采用普通硬件构建集群,降低硬件成本。

Hadoop 应用场景

  • 数据存储: 存储海量非结构化、半结构化和结构化数据。
  • 数据分析: 使用 MapReduce 或 Spark 等框架进行数据分析和挖掘。
  • 机器学习: 训练机器学习模型,进行预测和分类。