这是一个学习 Apache Spark 的共享资源库。最初由 [Feng2017] 在 Github 上发布,主要包含作者在 IMA 数据科学奖学金期间的自学笔记。

该资源库力求使用详细的演示代码和示例来演示如何使用每个主要功能。

这些教程假设读者具备编程和 Linux 的基础知识,并以简单易懂的教程和详细示例的形式分享 PySpark 编程知识。