- Spark及其生态圈简介
- Spark编译与部署(上)--基础环境搭建
- Spark编译与部署(下)--Spark编译安装
- Spark编译与部署(中)--Hadoop编译安装
- Spark编程模型(上)--概念及SparkShell实战
- Spark编程模型(下)--IDEA搭建及实战
- Spark运行架构
- Hive(上)--Hive介绍及部署
- Hive(下)--Hive实战
- SparkSQL(上)--SparkSQL简介
- SparkSQL(下)--Spark实战应用
- SparkSQL(中)--深入了解运行计划及调优
- SparkStreaming(上)--SparkStreaming原理介绍
- SparkStreaming(下)--SparkStreaming实战
- SparkMLlib(上)--机器学习及SparkMLlib简介
- SparkMLlib(下)--SparkMLlib实战
- SparkGraphX介绍及实例
- 分布式内存文件系统Tachyon介绍及安装部署
Spark编译与部署详解
相关推荐
Spark集群部署与开发详解
Spark集群部署与初步开发详细解析
一、Spark概述
定义:Spark是一款基于内存计算的大数据并行计算框架,提供高效的数据处理能力。
特性:
内存计算:利用内存加速数据处理,支持迭代计算。
高容错性:通过RDD实现数据的自动恢复。
高可扩展性:可轻松扩展到成千上万台服务器。
二、Spark与MapReduce对比
相同点:
均基于Hadoop集群,使用HDFS作为存储层。
均为大数据计算框架。
不同点:
开发语言:MapReduce使用Java,Spark主要使用Scala,同时支持Java和Python等。
性能差异:Spark通过内存计算显著提升处理速度,而MapReduce更
spark
10
2024-08-12
Spark伪分布模式的安装与部署详解
Spark伪分布模式是一种流行的大数据处理计算引擎,详细介绍了在大数据环境中安装和部署Spark伪分布模式的步骤。首先,需要预先安装好JDK、Hadoop和Scala语言。然后,下载并解压Spark安装包,配置必要的环境变量命令,包括slaves和spark-env.sh文件的设置。最后,通过sbin文件夹启动Spark伪分布模式,确保正常运行。逐步指导读者完成了安装和部署过程。
spark
12
2024-07-13
Spark 源码编译指南
提供 maven 和 sbt 两种编译方法
包含设置国内镜像加速依赖包下载的方法
记录了详细的操作步骤和注意事项
spark
13
2024-05-01
CentOS 7 Hadoop 编译、安装与部署指南
本指南涵盖如何在 CentOS 7 系统上编译、安装和部署 Hadoop 集群环境,包括所需依赖项。
Hadoop
10
2024-04-30
HBase 2.3.5 与 Spark 3.0.3 源码编译包
该资源包含 HBase 2.3.5 和 Spark 3.0.3 的源码编译包。
Hbase
13
2024-05-12
Redis-6.0.6编译版下载与部署指南
Redis 是一款高性能的 键值对数据库,以内存存储为主,数据持久化为辅,支持丰富的数据结构,如 字符串、哈希、列表、集合、有序集合等。在本压缩包 \"【Free】redis-6.0.6 编译版\" 中,包含 Redis 6.0.6 版本的单机编译版,用户可以直接运行,无需自行编译,简化了部署流程。
Redis 6.0.6版本特点:- 性能优化与新功能添加,提升了处理 网络请求 的能力,尤其在大量并发连接下表现更加优秀。- 引入 多线程IO,提高并发性能。- 增强 安全性,例如支持更严格的命令过滤和 TLS/SSL 加密传输,适合需要加密通信的场景。
Redis 数据结构:- 字符串:用于存储
Redis
8
2024-11-06
Hadoop与Spark开发环境部署指南.zip
Hadoop与Spark开发环境部署指南.zip,详细介绍了如何配置和部署Hadoop与Spark开发环境,帮助开发人员快速搭建工作环境。
Hadoop
8
2024-08-01
优化Spark源码编译过程
为避免工作中的潜在Bug,可以通过在线安装git(需使用root权限)并在指定目录克隆Apache Spark源代码,具体操作如下:在root权限下执行yum install git安装git;然后执行mkdir -p /projects/opensource创建目录并cd /projects/opensource,最后git clone https://github.com/apache/spark.git来克隆源代码。详细操作请参考相关文档。
spark
8
2024-07-21
Spark on Yarn模式部署指南
Spark on Yarn模式部署是将Spark应用程序部署在Yarn集群上的常见方法,这样可以利用Yarn的资源管理和调度功能,从而提升应用程序的性能和可靠性。步骤一:修改主机名,添加主机名到IP地址映射首先,创建三台虚拟机并安装Ubuntu服务器操作系统。编辑/etc/hostname文件,修改虚拟机的主机名,并添加主机名到IP地址映射。完成后,重启虚拟机。步骤二:配置免密码登录配置master免密码登录master、slave1和slave2,以便在后续操作中免密码登录到这些主机。步骤三:安装并配置JDK8下载并安装JDK8,配置Java环境变量。将JDK8复制到/usr/目录并解压缩,
spark
9
2024-07-13