RDD即弹性分布式数据集(Resilient Distributed Dataset)的简称,是Spark框架的核心数据抽象。理解RDD是学习Spark的基础,因为所有高级API(如DataFrame和Dataset)都基于RDD构建。RDD的概念解决Hadoop MapReduce在处理迭代算法和交互式数据挖掘时的限制,通过RDD,Spark提供了高效的迭代和交互式操作能力。RDD是不可变的分布式数据集合,具有不可变性、可分区性、容错性和位置感知性等特点。Spark设计RDD以支持机器学习、图计算和交互式查询等任务。