Kafka 是一个消息系统,最初由 LinkedIn 开发,作为其 活动流 (activity stream)和 运营数据处理管道 (pipeline)的基础。现今,它已被多家不同类型的公司广泛应用于各种 数据管道 (data pipeline)和消息系统中。活动流数据通常是所有站点在生成网站使用报表时最基础的数据,涵盖页面访问量(page view)、内容查看信息、搜索情况等。常见的处理方式是将活动数据记录为日志文件,并定期进行统计分析。

运营数据 则包括服务器性能指标,如 CPUIO使用率、请求响应时间、服务日志等。这些数据的统计方法多种多样。随着近年来对活动和运营数据处理需求的提升,许多网站软件产品已将其作为重要特性之一,因此需要一套更为复杂的基础设施来支持这一需求。