5月27日 22:19

CDN 性能监控有哪些核心指标?怎么搭建监控体系?

CDN 性能监控的五个核心指标

缓存命中率——CDN 监控的第一指标。命中率 = 缓存命中请求数 / 总请求数 × 100%,静态资源目标 95% 以上,整体 90% 以上。命中率骤降往往意味着缓存键配置错误或 TTL 过短,这是面试最爱追问的点。

TTFB(首字节时间)——从请求发出到收到第一个字节的耗时,包含 DNS 解析、TCP 连接、TLS 握手和服务器处理。静态内容 P95 应低于 100ms,动态内容低于 500ms。注意:要分开统计命中和未命中的 TTFB,否则平均值会掩盖问题。

回源率——回源请求数占总请求的比例,目标低于 10%。回源率高直接导致源站压力大、用户延迟高。面试常见追问:缓存命中率突然从 95% 掉到 60%,你怎么排查?思路:检查是否有大范围缓存失效(批量 purge)、缓存键是否冲突、TTL 是否被改短。

错误率——4xx 和 5xx 占总请求比例,4xx 目标低于 0.1%,5xx 低于 0.01%。5xx 飙升通常意味着源站过载或 CDN 节点异常,4xx 激增则可能是配置错误(如回源 URL 改了但 CDN 规则没更新)。

带宽与 QPS——带宽监控分边缘带宽和回源带宽,QPS 关注峰值和均值。流量突增需要区分是正常业务高峰还是攻击,结合错误率和延迟一起判断。

监控体系怎么搭

三层架构:数据采集 → 存储/计算 → 可视化/告警

采集层用 CDN 厂商的日志流(Cloudflare Logs、AWS CloudFront 实时日志)或自建 Nginx 日志,关键字段包括 request_timeupstream_cache_statusupstream_response_time。存储计算层用 Prometheus 做指标聚合,ELK 做日志检索。可视化用 Grafana 搭看板,按地域、ISP、内容类型分维度展示。

告警规则要设置三个:TTFB P95 超阈值持续 5 分钟、缓存命中率低于 80% 持续 10 分钟、5xx 错误率超 1% 持续 3 分钟。告警通道走企业 IM + 值班电话,5xx 告警级别必须高于延迟告警。

面试追问方向

  • 缓存命中率低怎么优化? 检查缓存键是否包含不必要的动态参数、TTL 是否合理、是否需要分层缓存(parent cache + edge cache)。
  • 如何区分 CDN 问题还是源站问题? 对比命中请求和未命中请求的 TTFB,如果命中请求也慢,问题在 CDN 层;如果只有未命中慢,问题在源站或回源链路。
  • 多 CDN 怎么监控? 统一指标口径,用同一套 Grafana 看板对比各厂商的命中率、延迟和错误率,按地域做流量调度。

掌握五个核心指标(命中率、TTFB、回源率、错误率、带宽/QPS)加一套采集-存储-告警的完整方案,面试基本够用。

标签:CDN