Spark安装指南

数据挖掘 10

22.29MB 2024-05-23

#数据挖掘 #机器学习 #分布式计算 #大数据 #Apache Spark

Spark是伯克利加州大学AMP实验室开发的开源通用并行框架，具有Hadoop MapReduce的优点。Spark的独特之处在于，它可以将作业中间输出结果保存在内存中，从而避免了对HDFS的频繁读写，非常适合需要迭代的MapReduce算法，如数据挖掘和机器学习。