程序员经常进行Apache Spark测试,这是一个关于如何使用Apache Spark 2.0的个人学习项目。项目主要集成了互联网上大量可用资源,以便快速获取相关概念。使用结构化查询语言(SQL)进行教程,有关详细教程请参阅免费的Apache Spark页面。Apache Spark是一个开源分布式通用集群计算框架,具备内存数据处理引擎,能够对大量静态(批处理)或动态(流处理)数据进行ETL、分析、机器学习和图形处理。它提供Scala、Python、Java、R和SQL等编程语言的丰富简洁的高级API。与Hadoop的基于磁盘的MapReduce处理引擎相比,Spark的多阶段内存计算引擎允许在内存中执行大部分计算,因此通常提供更佳性能(据报道速度提高了100倍)。特别适用于迭代算法或交互式数据挖掘。使用一段时间后,Spark被认为是交互式批处理分析引擎。