课程概述

本课程深入探讨 Apache Spark 2.0,这是一个专为大规模数据处理而设计的快速且通用的计算引擎。Spark 比 Hadoop MapReduce 更具优势,它可以将 Job 的中间输出结果保存在内存中,从而避免了频繁读写 HDFS 的过程,使其更适合数据挖掘、机器学习等需要迭代的算法。

课程内容

课程包含 14 章共 316 节内容,全面剖析 Spark 相关的各个技术点:

  • Spark 核心概念与架构
  • RDD 编程模型
  • Spark SQL 与 DataFrame
  • Spark Streaming 实时流处理
  • MLlib 机器学习库
  • GraphX 图计算

课程最后通过两个实际项目案例进行综合应用讲解:

  • 用户交互式行为分析系统
  • DMP 用户画像系统

收获与目标

通过本课程,您将:

  • 深入理解 Spark 的核心概念和工作原理
  • 掌握 Spark 的各种编程模型和技术
  • 能够使用 Spark 构建大规模数据处理应用
  • 具备实际项目经验,提升解决问题的能力

适合人群

  • 对大数据技术感兴趣的开发者
  • 希望学习 Spark 进行数据分析和机器学习的工程师
  • 数据科学家和数据分析师