TCP Keep-Alive 机制是什么？为什么还需要应用层心跳？

Question

Levenx · Accepted Answer

TCP Keep-Alive 是操作系统提供的连接存活检测机制：连接空闲一段时间后，内核自动发探测包，根据对端响应判断连接是否还活着。三个核心参数控制行为——空闲多久开始探测（tcpkeepalivetime，默认 7200 秒）、探测间隔（tcpkeepaliveintvl，默认 75 秒）、探测几次放弃（tcpkeepaliveprobes，默认 9 次）。最差情况下，从连接断开到被检测出来要 7200 + 75×9 = 7875 秒，超过 2 小时。追问为什么默认 2 小时这么长？RFC 1122 建议至少 2 小时，是出于对网络风暴的担忧——如果全网所有连接都以短间隔发探测包，本身就是一场 DDoS。2 小时在服务器间稳定网络里够用了，问题出在移动端：运营商 NAT 设备的连接跟踪表有限，空闲 5 分钟（移动 2/3G）到 28 分钟（电信 3G）就淘汰条目，连接就被静默丢弃了，2 小时探测根本来不及救。既然有 Keep-Alive，为什么还要应用层心跳？三个原因。第一，Keep-Alive 只能检测连接是否可达，不能检测对端进程是否卡死——进程死锁时 TCP 连接还活着，Ke

TCP Keep-Alive 机制是什么？为什么还需要应用层心跳？

追问

为什么默认 2 小时这么长？

既然有 Keep-Alive，为什么还要应用层心跳？

Keep-Alive 探测包长什么样？

什么场景下 Keep-Alive 就够了？

写段代码