Spark:超越MapReduce的并行计算引擎

诞生于加州伯克利大学AMP实验室的Spark,自2010年开源以来,迅速成为Apache基金会在大数据领域最活跃的项目之一。虽然Spark的根基建立在map-reduce算法模型之上,但它超越了Hadoop MapReduce的局限,成为一个通用的并行计算框架。Spark不仅继承了Hadoop的优势,还弥补了其性能短板,为大数据处理带来了革新。