5月份的Spark Summit会议部分幻灯片。主要涉及SQL和核心相关内容。总共近200页,选取了几个感兴趣的内容下载分析。包括:利用Apache Spark分析半导体晶圆制造过程中的2TB原始跟踪数据的首个应用案例;在实际行业中构建高效的类Facebook规模的Shuffle服务;使用Databricks Delta大规模构建会话化流水线;通过分解的持久内存优化计算集群资源利用率;如何通过定制优化扩展Spark核心;以及统一数据交换的基于Apache Arrow的Delta Lakes简化变更数据捕获等。