Kafka 是由 Apache 软件基金会开发的一个开源流处理平台,使用 ScalaJava 编写。Kafka 是一种高吞吐量的分布式发布订阅消息系统,能够处理消费者规模的网站中的所有动作流数据。这种动作(网页浏览、搜索和其他用户的操作)对于现代网络上的社交功能至关重要。此类数据通常需要通过处理日志和日志聚合来满足吞吐量要求。对于像 Hadoop 一样的离线分析系统,但需要实时处理的情况,Kafka 提供了一种可行的解决方案。Kafka 的目的是通过 Hadoop 的并行加载机制统一线上和离线的消息处理,同时支持集群中的实时消费。