Spark 2.0 深度剖析：掌握大规模数据处理利器

spark 15

742B 2024-04-30

#Spark #大数据 #数据处理 #机器学习 #数据分析

课程概述

本课程深入探讨 Apache Spark 2.0，这是一个专为大规模数据处理而设计的快速且通用的计算引擎。Spark 比 Hadoop MapReduce 更具优势，它可以将 Job 的中间输出结果保存在内存中，从而避免了频繁读写 HDFS 的过程，使其更适合数据挖掘、机器学习等需要迭代的算法。

课程内容

课程包含 14 章共 316 节内容，全面剖析 Spark 相关的各个技术点：

Spark 核心概念与架构
RDD 编程模型
Spark SQL 与 DataFrame
Spark Streaming 实时流处理
MLlib 机器学习库
GraphX 图计算

课程最后通过两个实际项目案例进行综合应用讲解：

用户交互式行为分析系统
DMP 用户画像系统

收获与目标

通过本课程，您将：

深入理解 Spark 的核心概念和工作原理
掌握 Spark 的各种编程模型和技术
能够使用 Spark 构建大规模数据处理应用
具备实际项目经验，提升解决问题的能力

适合人群

对大数据技术感兴趣的开发者
希望学习 Spark 进行数据分析和机器学习的工程师
数据科学家和数据分析师