Hadoop是一个由Apache软件基金会开发的开源框架,用于在普通硬件集群上存储和处理大量数据。其核心组件包括: 1. Hadoop Distributed File System (HDFS) - 设计用于在多个服务器上存储大数据并提供高吞吐量访问的分布式文件系统。 2. MapReduce - 用于在Hadoop集群上进行大规模数据集的并行处理和分析的编程模型和软件框架。 Hadoop的特点包括: - 可扩展性:能够处理PB级别的数据。 - 可靠性:通过数据复制(默认为3份)确保数据持久性和容错性。 - 成本效益:可在商用硬件上运行,降低成本。 - 支持多种数据源:能够处理结构化、半结构化和非结构化数据。