AI事故复盘
一句话:用AI把线上故障处理过程整理成时间线、根因、影响、修复和预防措施。
它是什么
AI事故复盘是把告警、聊天记录、部署记录、日志和修复过程整理成复盘文档。它帮助团队从故障中沉淀经验,而不是只把服务恢复就结束。
适合干什么
- 上线产品的小团队
- 技术负责人和项目经理
- 经常出现重复故障的团队
- 需要向客户或老板说明故障原因的人
不适合干什么
- 故障还没有恢复就急着写最终结论
- 缺少日志和处理记录的情况
- 需要法律责任认定的正式调查
普通人怎么用
- 收集故障时间线
- 整理影响范围
- 让AI根据资料生成复盘草稿
- 人工确认根因
- 输出预防措施和负责人
进阶用户怎么用
- 把复盘模板标准化
- 区分直接原因、根本原因和触发因素
- 把改进项进入任务系统
- 定期回查改进项是否完成
常见误区
- 只写谁的问题,不写系统怎么改
- 没有明确时间线
- 把猜测写成根因
- 预防措施没有负责人和截止时间
和相似工具的区别
- 事故复盘 vs 告警分析:告警分析发生在故障处理中,事故复盘发生在恢复后。
- 事故复盘 vs 工作总结:事故复盘重点是根因和预防,工作总结重点是过程和结果。
入门步骤
- 收集告警、日志和处理记录
- 按时间排序
- 让AI生成初稿
- 人工确认根因
- 把改进项分配给负责人
推荐工具(第三方)
ChatGPT、Claude、Sentry、Grafana、Linear、Jira