大数据实验实验六：Spark初级编程实践

Spark是一个大数据处理的开源cluster computing框架，具有高效、灵活、可扩展等特点。本实验报告通过Spark初级编程实践，掌握Spark的基本使用和编程方法。

一、安装Hadoop和Spark

在Windows 10上安装Oracle VM VirtualBox虚拟机，安装CentOS 7操作系统，并配置Hadoop 3.3环境。选择支持Hadoop 3.3版本的Spark安装包，解压后配置spark-env.sh文件，成功启动Spark。

二、Spark读取文件系统的数据

Spark可以读取Linux系统本地文件和HDFS系统文件。首先，在spark-shell中读取Linux系统本地文件“/home/hadoop/test.txt”，并统计行数。其次，读取HDFS系统文件“/user/hadoop/test.txt”（如果该文件不存在，请先创建），统计出文件行数。最后，编写独立应用程序（使用Scala语言），读取HDFS系统文件“/user/hadoop/test.txt”，并统计行数。使用sbt工具编译打包成JAR包，通过spark-submit提交到Spark中运行命令。

三、编写独立应用程序实现数据去重

编写Spark独立应用程序，对两个输入文件A和B进行合并，并剔除重复内容，生成新文件C。使用Scala语言编写程序，并使用sbt工具编译打包成JAR包，通过spark-submit提交到Spark中运行命令。

四、编写独立应用程序实现求平均值问题

编写Spark独立应用程序，求出所有学生的平均成绩，并输出到新文件中。使用Scala语言编写程序，并使用sbt工具编译打包成JAR包，通过spark-submit提交到Spark中运行命令。

五、问题解决

在实验过程中，遇到了三个问题。问题一是运行start-all命令时Spark报错缺少依赖，解决方法是选择正确的安装包版本。问题二是更改etc/profile环境后，Source命令刷新文件仍出现路径配置错误，解决方法是在同一个窗口source文件。