Elasticsearch 如何监控集群状态和性能指标？

Question

Levenx · Accepted Answer

监控 ES 集群，最常用的三个入口：_cluster/health 看整体状态，_cat/nodes 看节点资源，Kibana Stack Monitoring 看可视化大盘。生产环境一般是 API + Prometheus + Grafana 的组合：API 做快速诊断，Prometheus 采 metrics，Grafana 出图 + 告警。_cluster/health 返回 status（green/yellow/red），green 正常，yellow 有未分配副本，red 有主分片丢失。red 要立即查节点是不是挂了或者磁盘满了。_cat/nodes?v 看每个节点的 heap.percent、cpu、disk.used。heap.percent 超 70% 就该告警，超 80% 可能 OOM。Kibana 的 Stack Monitoring 不用额外部署，开箱即用。Overview 看集群状态，Nodes 看 CPU/内存/磁盘，Indices 看搜索延迟和索引速率。设好阈值就能自动告警。生产环境一般加 Prometheus exporter 采 _nodes/stat

Elasticsearch 如何监控集群状态和性能指标？

追问

cluster health 返回 yellow 怎么排查？

ES 节点频繁 OOM 怎么定位？

磁盘突然满了怎么办？

Kibana 监控和 Prometheus 监控怎么选？