Kafka基础简介整合材料

Apache Kafka是一个分布式流处理平台，用于构建实时数据管道和流式应用程序。Kafka具有高吞吐量、低延迟和良好的容错性，在大数据领域广泛应用。其核心功能包括发布和订阅数据流，以及持久化和传输大量实时数据。

Kafka的四大核心API是其功能基础：

1. Producer API：生产者负责将数据发布到特定的主题，可以通过负载均衡算法或基于键的分区策略将数据分配到特定分区。

2. Consumer API：消费者订阅并消费主题中的数据，以消费组形式工作，每个主题的记录被分发给消费组中的一个消费者实例，支持扩展性和容错性。

3. Streams API：允许开发人员对流数据进行复杂处理，如聚合、连接和其他流处理操作，实现实时分析和数据转换。

4. Connector API：允许与其他数据源和接收器集成，便于将数据导入或导出Kafka，如数据库、日志文件等。

在Kafka中，Topic是数据记录发布的主题，可根据业务系统区分。每个主题可分为多个Partition，每个分区是一个有序队列，保证消息顺序。Offset是每个分区记录的唯一标识，用于指示记录在分区中的位置，消费者通过控制Offset跟踪已读取记录。

Kafka提供关键特性确保数据高可用性和可靠性：

- 副本与故障转移：每个分区可有多个副本，一个为Leader，其余为Follower。当Leader故障时，Follower自动晋升为新的Leader。

- ISR（In-Sync Replicas）：保持与Leader同步的副本组，落后太多或宕机的副本将被移除，确保数据一致性。

- LEO（Log End Offset）：记录副本日志的末尾位移，是衡量副本进度的关键指标。

Kafka不仅是一个消息队列，还可作为中间数据存储系统，数据写入Kafka后会被持久化到磁盘。