2018年云端大数据处理中使用Spark

本书描述了大数据技术的兴起以及Spark在整个大数据堆栈中的角色。它比较了Spark和Hadoop，并指出了Hadoop的一些缺点在Spark中得到了克服。本书主要关注Spark的深度架构以及我们对Spark RDD的理解，以及RDD如何补充大数据的不可变性，并通过惰性评估、可缓存和类型推断来解决这些问题。它还涉及到Spark的高级主题，从Scala的基础知识和核心Spark框架开始，探讨Spark数据框架、使用Mllib的机器学习、使用Graph X的图分析和使用Apache Kafka、AWS Kenisis和Azure Event Hub的实时处理。然后，它进一步探讨了使用PySpark和R的Spark。本书重点关注当前的大数据堆栈，检查与当前大数据工具的互动，其中Spark是所有类型数据的核心处理层。本书适用于从事数据工程和科学的工程师和科学家。