5月28日 08:24

Kafka 为什么能够实现高吞吐量？

Kafka 是目前业界吞吐量最高的消息队列之一，单机每秒可处理数十万条消息。这并非依赖某种银弹技术，而是多个设计决策协同作用的结果。理解这些原理，不仅能帮你在面试中给出有层次的回答，更能指导实际场景中的性能调优。

顺序写：磁盘也能很快

很多人对磁盘的性能认知停留在"慢"，但这只对随机读写成立。顺序写磁盘的速度可以达到 600MB/s 以上，甚至超过随机写内存的效率。

Kafka 的做法很直接：所有消息以追加（append）的方式写入日志文件，永远不修改已有数据。Consumer 也按偏移量顺序读取，整个读写路径上几乎没有随机 I/O。

这个设计还带来一个额外好处——操作系统对顺序写有天然优化。数据先进入 Page Cache，由 OS 异步刷盘，Kafka 本身不需要调用 fsync（除非配置了强制刷盘），相当于写内存的速度。

传统的网络数据发送要经历四次拷贝和四次上下文切换：

shell
磁盘 → 内核缓冲区 → 用户缓冲区 → Socket缓冲区 → 网卡

其中"内核缓冲区 → 用户缓冲区 → Socket缓冲区"这两步是完全可以避免的。Kafka 使用 Linux 的 sendfile 系统调用，数据直接从内核缓冲区传输到网卡：

shell
磁盘 → 内核缓冲区 → 网卡

拷贝次数从 4 次降到 2 次，CPU 上下文切换也从 4 次降到 2 次。在高吞吐场景下，这个差距会被放大到非常显著的程度。

补充一点：Kafka 还用了 mmap（内存映射文件）来处理 Consumer 的偏移量索引文件，让索引查找避免一次用户态拷贝。sendfile 处理数据流，mmap 处理索引，两者配合覆盖了 Kafka 主要的数据路径。

很多中间件选择在 JVM 堆内维护缓存，但 JVM 的 GC 是吞吐量杀手——堆越大，GC 暂停越长，对延迟敏感的场景尤其致命。

Kafka 反其道而行：不维护堆内缓存，直接依赖操作系统的 Page Cache。写入时数据进入 Page Cache 就算成功，读取时如果命中缓存就直接返回，都没经过 JVM 堆。

这样做的好处：

网络请求的固定开销很高——一次 TCP 往返的延迟，加上协议解析、线程调度等开销。如果每条消息都单独发送，吞吐量会被网络开销吃掉。

Kafka 在 Producer 端做了两层批量：

properties
# 一批消息的最大字节数
batch.size=16384

# 等待多久再发送（即使没凑满一批）
linger.ms=5

batch.size 控制批量上限，linger.ms 控制等待时间。两者配合，Producer 会攒够一批再发，或者等 5ms 没有新消息也发出去。这种微小的延迟换取的是网络请求次数的大幅减少。

Consumer 端同理，fetch.min.bytes 和 fetch.max.wait.ms 也是同样的思路——宁可多等一会，也要一次多拉一些数据。

单个分区只能被一个 Consumer 消费，这就是单分区的吞吐量上限。Kafka 通过分区实现并行：

分区数决定了并行度的上限。但分区数也不是越多越好——每个分区在 Broker 上有对应的目录和索引文件，分区过多会增加文件句柄、增大 Leader 选举时间、加重 ZooKeeper/KRaft 负担。一般建议单 Broker 分区数不超过 1000-2000。

Kafka 支持在 Producer 端压缩、Broker 端保持原样、Consumer 端解压，即端到端压缩。这意味着压缩的收益不仅体现在网络传输，还体现在磁盘存储上。

常用压缩算法对比：

选择压缩算法本质是 CPU 与带宽的权衡。CPU 有余量、带宽紧张就选高压缩比；延迟敏感就选快压缩。

在理解原理的基础上，实际调优时可以从几个方向入手：

Producer 侧：增大 batch.size 和 buffer.memory，适当调高 linger.ms，开启压缩，使用异步发送（acks=0 或 acks=1，牺牲部分可靠性换吞吐）。

Broker 侧：增加分区数提升并行度，将日志目录挂载到不同磁盘实现 I/O 分散，调整 num.io.threads 匹配磁盘数量。

Consumer 侧：增加 Consumer 实例数（不超过分区数），调大 fetch.min.bytes 和 max.poll.records，开启自动提交减少偏移量提交开销。

硬件层面：SSD 替换 HDD 对顺序写提升有限（因为顺序写 HDD 也不慢），但对随机读和副本同步有明显帮助；增加内存扩大 Page Cache 命中率；万兆网卡消除网络瓶颈。

需要强调的是，高吞吐和强可靠性是矛盾的。acks=all + min.insync.replicas=2 能保证数据不丢，但吞吐量会比 acks=0 低一个量级。生产环境中，金融、订单等关键业务必须优先可靠性，日志采集等场景可以优先吞吐量。

标签：Kafka