《Spark 2nd Edition快速数据处理》是一本关于使用Spark进行快速、分布式和可扩展实时数据分析的电子版图书,作者包括Krishna Sankar和Holden Karau,由Packt Publishing出版,第二版出版于2015年3月。本书详细介绍了如何利用Apache Spark的强大功能和灵活性来处理大数据,重点在于实时数据处理。内容涵盖Spark的基本架构、Spark Streaming的数据流处理、Spark SQL的数据库操作、MLlib机器学习库的使用以及GraphX图形处理框架。通过丰富的实例和详细解释,展示了如何构建高效的大数据处理程序。Spark是一个开源的分布式计算系统,提供了一个快速、通用的计算引擎。其核心RDD是一个容错的、并行操作的数据结构,可以显式地将数据存储在内存中,实现快速访问。Spark Streaming模块处理实时数据流,允许用户从多种源接收数据流,并应用相同的转换和动作。Spark SQL模块提供DataFrame API,类似于Python中的pandas库或R语言中的数据框,支持SQL查询语言进行数据分析。MLlib是内置的机器学习库,提供多种常见的ML算法实现和构建工具。GraphX是用于图形计算和数据并行计算的API,扩展了RDD,提供了多种图算法实现。