Spark 是一种类似 Hadoop 的开源集群计算环境。与 Hadoop 相比,Spark 具有以下优点:启用了内存分布数据集、支持交互式查询和优化了迭代工作负载。

Spark 采用 Scala 语言实现,将 Scala 作为其应用程序框架。Scala 与 Spark 紧密集成,使 Scala 能够像操作本地集合对象一样轻松操作分布式数据集。