当前已经探讨了机器学习和批处理模式下的数据挖掘。现在转向处理流数据,实时探测其中的事实和模式,如河流般快速变化的动态环境带来挑战。首先列出了流处理的先决条件,例如与Twitter的TCPSockets集成,然后结合Spark、Kafka和Flume构建低延迟、高吞吐量、可扩展的处理流水线。重点介绍了初始的数据密集型应用架构,并指出了Spark Streaming在整体架构中的关键位置,包括Spark SQL和Spark MLlib模块。数据流可以包括股票市场的时序分析、企业交易等。