这本书是目前国内唯一的中文资源,对学习Kettle的朋友和研究ETL的专家都有很高的参考价值。
Spark理论详解
相关推荐
Spark 理论与 PySpark 应用
Spark 理论与 PySpark 应用
Spark 生态系统
Spark Core:Spark 的核心组件,提供分布式任务调度、内存管理和容错机制。
Spark SQL:用于处理结构化数据的模块,支持 SQL 查询和 DataFrame API。
Spark Streaming:实时流数据处理框架,支持高吞吐量、容错的流处理。
Hadoop 与流数据处理
Hadoop 为 Spark 提供分布式存储和计算基础架构,使其能够高效处理大规模数据集,包括流数据。流数据处理的特点:
实时性:数据持续生成,需要实时处理和分析。
持续性:数据流永不停止,需要系统持续运行。
高吞吐量:需要处理大量高
spark
17
2024-05-15
Spark RDD 算子详解
RDD 分区调整:- repartition()- coalesce()聚合函数:- reduce()- aggregate()关联函数:- join()- cogroup()
spark
11
2024-04-30
详解Spark SQL实验
将详细介绍Spark SQL的实验内容,帮助读者快速下载所需资料。
spark
12
2024-08-13
Spark Shell启动详解
详细介绍了Spark的shell启动命令及其具体细节,帮助读者深入了解。
spark
10
2024-09-13
Spark Streaming 2.3.0 中文详解
全面解析 Spark Streaming 2.3.0 API、知识点和案例,助您轻松掌握流处理技术。
spark
10
2024-05-12
Spark编译与部署详解
Spark及其生态圈简介
Spark编译与部署(上)--基础环境搭建
Spark编译与部署(下)--Spark编译安装
Spark编译与部署(中)--Hadoop编译安装
Spark编程模型(上)--概念及SparkShell实战
Spark编程模型(下)--IDEA搭建及实战
Spark运行架构
Hive(上)--Hive介绍及部署
Hive(下)--Hive实战
SparkSQL(上)--SparkSQL简介
SparkSQL(下)--Spark实战应用
SparkSQL(中)--深入了解运行计划及调优
SparkStreaming(上)--SparkStreaming原理介绍
Spar
spark
8
2024-07-13
Apache Spark源码详解小册
Apache Spark源码详解小册知识点总览####一、开场白深入探讨Apache Spark的代码实现,特别是其核心组件——弹性分布式数据集(RDD)。作为Spark技术的学习者和热衷者,作者通过长期学习积累了丰富的笔记和心得,现在通过本书与广大读者分享这些宝贵资源。 ####二、RDD概述RDD作为Spark的基本数据抽象,是一个只读的、可分区的数据集。RDD具备良好的容错性和并行处理能力,使其成为构建高效分布式应用的理想选择。 #####详细特性1. 分区列表(A list of partitions) -每个RDD可以包含多个分区,这是其基本组成部分。 -每个分区代表数据集的一个子集
spark
6
2024-08-09
Spark调优策略详解
深入探讨了如何优化Spark性能,涵盖了性能监控、数据倾斜处理、shuffle调优等关键内容。讨论了合理配置worker与executor、内存分配优化、CPU使用率监控及网络带宽管理等调优要点,并通过实际案例展示了企业级大数据平台的调优方法。
spark
7
2024-09-13
非线性优化理论详解及Matlab实例
详细介绍非线性优化理论,并提供了多个Matlab实例,帮助读者深入理解。
Matlab
10
2024-08-02