Spark基础解析

Spark 基础

了解 Spark 基本概念： RDD 本地调试 Spark-shell 交互 Spark-submit 提交

spark 13 2024-05-12

整理Spark基础概念

整理Spark基础知识思维导图，包括SparkCore和SparkSQL。

spark 5 2024-09-24

Hudi Spark Bundle 解析

hudi-spark3.2-bundle_2.12-0.12.2.jar 是一个与 Apache Spark 3.2 兼容的 Hudi bundle 包。其包含了 Hudi 核心功能以及 Spark 集成所需的依赖项。此 bundle 简化了 Hudi 在 Spark 环境中的使用，开发者可轻松将其添加到项目中以利用 Hudi 的数据湖功能。

Hadoop 9 2024-04-29

Apache Spark深度解析

Apache Spark作为一个高效、易用且弹性的分布式计算框架，涉及的内容非常广泛。将详细探讨Spark架构、核心组件、DAG执行引擎、内存管理、弹性数据集和资源调度等关键知识点。Spark基于RDD实现数据集合的容错并行操作，支持多种数据处理模型和实时流数据处理。通过优化内存布局和任务调度，Spark实现了高效的数据处理和容错机制，适用于各种大数据场景。

spark 9 2024-08-24

Spark 性能优化基础指南

这份指南深入探讨了 Spark 性能优化的基础知识，涵盖了关键概念和实用技巧，助你提升 Spark 应用的效率。

spark 14 2024-05-12

spark.zip 项目解析

项目包含以下功能： input 文件夹: 存放项目所需数据源。 wordcount: 统计每个单词出现的总次数。 count 和 count1: 分别使用 DataFrame 和 RDD 统计人口性别和身高数据。 demo1: 分析最受欢迎老师的数据。 demo2: 对多个文件进行去重并合并。 demo3: 计算年度最高温度。

spark 8 2024-05-12

Spark核心原理深度解析

这份资源提供了对Spark核心原理的全面解析，涵盖了从执行计划到架构设计的各个关键方面。 Spark原理示意图 (Overview.pdf)：以图表形式清晰展示Spark的核心概念和工作流程。逻辑执行计划 (JobLogicalPlan.pdf)：深入探讨Spark如何将用户代码转化为逻辑执行计划，为优化奠定基础。物理执行计划 (JobPhysicalPlan)：详细讲解Spark如何将逻辑计划转化为具体的物理执行计划，并分配到集群节点进行执行。 Shuffle机制详解 (shuffleDetails.pdf)：剖析Shuffle过程的内部机制，包括数据分区、排序、合并等关键步骤，以及对

spark 12 2024-05-19

深入解析 Spark Shuffle 机制

深入解析 Spark Shuffle 机制 Spark Shuffle 是其分布式计算框架中的重要环节，负责在不同分区间迁移数据，为后续算子提供所需数据。理解 Shuffle 机制对于优化 Spark 作业性能至关重要。 Shuffle 过程剖析 Map 阶段: 数据在各个分区进行处理，并根据目标分区进行排序和划分。数据存储: 每个 map task 将其结果写入本地磁盘或内存。 Reduce 阶段: 从各个 map task 所在节点获取相应分区的数据。数据聚合: 对获取的数据进行聚合或其他操作。 Shuffle 策略 Spark 提供多种 Shuffle 策略，以适应不同场景：

spark 12 2024-04-30

Spark面试2000题解析

Spark面试2000题详细解析

spark 8 2024-07-13