∑ Observability (Logs, Monitoring, Alerting)
This Map of Contents aggregates notes related to the three pillars of Observability: Logs, Monitoring, and Alerting.
可观测性不只是把 Prometheus、Loki、告警机器人都装上,而是回答 3 个连续问题:
- Monitoring:系统现在怎么样了。
- Logs / Traces:刚才到底发生了什么。
- Alerting:什么时候需要把人叫醒,以及叫醒谁。
Current Backbone
- k8s 集群 日志与监控 - Area 层的基础入口
- 日志、告警、监控系统建设 - 项目层的方案与拆解
- 日志监控与指标(Prometheus Loki Grafana) - 学习与实现要点
- 当前线上业务告警 - 现网告警现状
- PRR - 生产就绪与可观测性要求
- 映兔自研的微服务框架 - 架构层面的可观测性位置
Task Threads
- 业务日志告警重新配置,并开放,先从api server开始整改。
- Prometheus监控会导致eks auto mode的node异常挂掉
- Prometheus 完成后,需要配置grafana,能进行有效监控,并对一些异常进行通知和告警
- mongodb 的慢查询,超过10秒,则告警
- llm调用失败的告警
- 当前环境配置持续监测的健康检查,并进行飞书群告警
- 信鹏的loki日志系统,部署到aws eks集群里
- 现网拨测和uptime监控
Overview
- k8s集群日志查看与故障排查方法
- 日志监控与指标(Prometheus Loki Grafana)
- 持续优化 aws eks 的弹性伸缩性能,监控、日志、告警能力
- 日志、告警、监控系统建设
- k8s 集群 日志与监控
📊 Monitoring
Collecting and analyzing metrics to understand the state of the system.
Strategy & Configuration
- 监控告警体系建设
- 告警和监控
- aws 监控告警配置 - cloudwatch完整使用
- 各种余额的费用监控,统一告警的dashboard配置
- 阿里云Prometheus监控服务下线策略
- 预发环境整体监控告警策略配置架构图.canvas
Specific Monitors
📝 Logs
Recording events to understand what happened.
Implementation & Practice
Troubleshooting & Experience
Solution Specific (SLS etc)
🔔 Alerting
Notifying relevant parties when metrics cross thresholds or specific events occur.
🛠 Tools Stack
ELK & Loki
Prometheus & Grafana
Cloud Services
up:: ∑ 项目与工作管理