SparkCore（下）.pdf

RDD即弹性分布式数据集（Resilient Distributed Dataset）的简称，是Spark框架的核心数据抽象。理解RDD是学习Spark的基础，因为所有高级API（如DataFrame和Dataset）都基于RDD构建。RDD的概念解决Hadoop MapReduce在处理迭代算法和交互式数据挖掘时的限制，通过RDD，Spark提供了高效的迭代和交互式操作能力。RDD是不可变的分布式数据集合，具有不可变性、可分区性、容错性和位置感知性等特点。Spark设计RDD以支持机器学习、图计算和交互式查询等任务。