Apache Spark 作为速度快、适用范围广的计算引擎,专用于大规模数据处理。它与 Hadoop 类似,同属开源集群计算环境。Spark 支持分布式数据集上的迭代作业,是 Hadoop 的补充,可在 Hadoop 文件系统中并行运行。