课程概述
本课程深入探讨 Apache Spark 2.0,这是一个专为大规模数据处理而设计的快速且通用的计算引擎。Spark 比 Hadoop MapReduce 更具优势,它可以将 Job 的中间输出结果保存在内存中,从而避免了频繁读写 HDFS 的过程,使其更适合数据挖掘、机器学习等需要迭代的算法。
课程内容
课程包含 14 章共 316 节内容,全面剖析 Spark 相关的各个技术点:
- Spark 核心概念与架构
- RDD 编程模型
- Spark SQL 与 DataFrame
- Spark Streaming 实时流处理
- MLlib 机器学习库
- GraphX 图计算
课程最后通过两个实际项目案例进行综合应用讲解:
- 用户交互式行为分析系统
- DMP 用户画像系统
收获与目标
通过本课程,您将:
- 深入理解 Spark 的核心概念和工作原理
- 掌握 Spark 的各种编程模型和技术
- 能够使用 Spark 构建大规模数据处理应用
- 具备实际项目经验,提升解决问题的能力
适合人群
- 对大数据技术感兴趣的开发者
- 希望学习 Spark 进行数据分析和机器学习的工程师
- 数据科学家和数据分析师