Hadoop 核心概念

Hadoop 18

13.44KB 2024-05-21

#大数据 # 分布式系统 # Hadoop生态系统 # 数据存储 # 数据分析

Hadoop 核心概念

Hadoop是一个开源的分布式计算框架，用于存储和处理大规模数据集。其核心组件包括：

HDFS（Hadoop分布式文件系统）: 将大文件分割成块，分布存储在集群节点上，提供高容错性和高吞吐量。
YARN（Yet Another Resource Negotiator）: 负责集群资源管理和调度，为应用程序分配资源。
MapReduce: 一种编程模型，用于大规模数据处理，将任务分解为 map 和 reduce 两个阶段，并行执行。

Hadoop 特点

高可靠性: 通过数据冗余和节点故障自动恢复机制，确保数据安全和系统稳定性。
高可扩展性: 可线性扩展至数千个节点，处理 PB 级数据。
高吞吐量: 并行处理能力强，可高效处理大规模数据集。
低成本: 采用普通硬件构建集群，降低硬件成本。

Hadoop 应用场景

数据存储: 存储海量非结构化、半结构化和结构化数据。
数据分析: 使用 MapReduce 或 Spark 等框架进行数据分析和挖掘。
机器学习: 训练机器学习模型，进行预测和分类。