使用Spark进行高级分析从数据中学习模式的方法

在这本实用书的第二版中，四位Cloudera数据科学家介绍了一套用于使用Spark进行大规模数据分析的自包含模式。作者们结合了Spark、统计方法和实际数据集，通过示例教授您如何解决分析问题。本版针对Spark 2.1进行了更新，作为这些技术和Spark编程的最佳实践入门。您将从Spark及其生态系统入手，深入研究应用于基因组学、安全性和金融等领域的常见技术模式，包括分类、聚类、协同过滤和异常检测。如果您具有机器学习和统计学的入门理解，并且使用Java、Python或Scala编程，您将发现本书的模式对您有所帮助。