Hadoop 基础
分布式文件系统
Hadoop分布式文件系统 (HDFS) 是一种设计用于在商用硬件集群上存储大量数据的系统。HDFS具有高容错性,并提供对应用程序数据的可靠访问。
Hadoop MapReduce
MapReduce是一种编程模型,用于处理和生成大型数据集。这种模型将工作分为两个主要阶段:Map和Reduce。Map阶段处理输入数据并生成键值对。Reduce阶段接收所有映射器生成的键值对,并将它们聚合在一起以生成最终结果。
Hadoop YARN
Yet Another Resource Negotiator (YARN)是Hadoop的资源管理系统。它负责在集群中的不同节点上调度和管理资源,并确保所有应用程序都能获得所需的资源。