Kafka个人学习总结（一）

Kafka是一款开源分布式流处理平台，能够高效处理大规模实时数据。其核心特性包括高吞吐量、持久化、分区与复制、多消费者模型。1. 高吞吐量：Kafka处理每秒数十万条消息，通过优化I/O操作，实现接近内存的速度。2. 持久化：消息持久化到硬盘，设置保留策略控制数据清理。3. 分区与复制：数据分为多个分区，并在不同节点间复制，增强容错性和可扩展性。4. 多消费者模型：支持多个消费者组，同一分区内消息只被组内一个消费者消费。5. 生产者与消费者：生产者生成和发送消息，消费者接收和处理消息，通过主题进行交互。6. API支持：提供Java和Scala客户端库，支持其他语言的第三方库。7. Zookeeper依赖：进行集群管理，存储元数据，选举首领节点，协调通信。8. 流处理：引入流处理概念，结合Kafka Streams或Kafka Connect构建数据处理管道。9. Kafka Connect：连接外部系统，实现数据导入导出。