Spark-Streaming数据流处理技术

当前已经探讨了机器学习和批处理模式下的数据挖掘。现在转向处理流数据，实时探测其中的事实和模式，如河流般快速变化的动态环境带来挑战。首先列出了流处理的先决条件，例如与Twitter的TCPSockets集成，然后结合Spark、Kafka和Flume构建低延迟、高吞吐量、可扩展的处理流水线。重点介绍了初始的数据密集型应用架构，并指出了Spark Streaming在整体架构中的关键位置，包括Spark SQL和Spark MLlib模块。数据流可以包括股票市场的时序分析、企业交易等。