Docker 容器监控和告警是生产环境运维的重要环节。监控指标包括:容器资源使用(CPU、内存、磁盘 I/O、网络 I/O)、容器状态(运行、停止、重启次数)、应用健康状态(健康检查结果)、日志错误率。监控工具:Docker 自带的 docker stats、Prometheus + cAdvisor、Grafana、Datadog、Sysdig 等。告警可以通过 Prometheus Alertmanager、Grafana Alerting 或自定义脚本实现。关键告警项:容器退出、资源使用超阈值、健康检查失败、日志错误率过高。建议设置合理的告警阈值和通知渠道,避免告警疲劳。