Spark是一个大数据处理的开源cluster computing框架,具有高效、灵活、可扩展等特点。本实验报告通过Spark初级编程实践,掌握Spark的基本使用和编程方法。

一、安装Hadoop和Spark

在Windows 10上安装Oracle VM VirtualBox虚拟机,安装CentOS 7操作系统,并配置Hadoop 3.3环境。选择支持Hadoop 3.3版本的Spark安装包,解压后配置spark-env.sh文件,成功启动Spark。

二、Spark读取文件系统的数据

Spark可以读取Linux系统本地文件和HDFS系统文件。首先,在spark-shell中读取Linux系统本地文件“/home/hadoop/test.txt”,并统计行数。其次,读取HDFS系统文件“/user/hadoop/test.txt”(如果该文件不存在,请先创建),统计出文件行数。最后,编写独立应用程序(使用Scala语言),读取HDFS系统文件“/user/hadoop/test.txt”,并统计行数。使用sbt工具编译打包成JAR包,通过spark-submit提交到Spark中运行命令。

三、编写独立应用程序实现数据去重

编写Spark独立应用程序,对两个输入文件A和B进行合并,并剔除重复内容,生成新文件C。使用Scala语言编写程序,并使用sbt工具编译打包成JAR包,通过spark-submit提交到Spark中运行命令。

四、编写独立应用程序实现求平均值问题

编写Spark独立应用程序,求出所有学生的平均成绩,并输出到新文件中。使用Scala语言编写程序,并使用sbt工具编译打包成JAR包,通过spark-submit提交到Spark中运行命令。

五、问题解决

在实验过程中,遇到了三个问题。问题一是运行start-all命令时Spark报错缺少依赖,解决方法是选择正确的安装包版本。问题二是更改etc/profile环境后,Source命令刷新文件仍出现路径配置错误,解决方法是在同一个窗口source文件。