Spark是伯克利加州大学AMP实验室开发的开源通用并行框架,具有Hadoop MapReduce的优点。Spark的独特之处在于,它可以将作业中间输出结果保存在内存中,从而避免了对HDFS的频繁读写,非常适合需要迭代的MapReduce算法,如数据挖掘和机器学习。