Spark 是一个开源的集群计算系统,其设计目标是实现快速的数据分析。该系统基于内存计算,由加州大学伯克利分校 AMP 实验室以 Matei 为首的团队开发。Spark 核心代码简洁高效,仅包含 63 个 Scala 文件。