← AI 百科

AI事故复盘

部署与运维 · 运维
一句话:用AI把线上故障处理过程整理成时间线、根因、影响、修复和预防措施。

它是什么

AI事故复盘是把告警、聊天记录、部署记录、日志和修复过程整理成复盘文档。它帮助团队从故障中沉淀经验,而不是只把服务恢复就结束。

适合干什么

  • 上线产品的小团队
  • 技术负责人和项目经理
  • 经常出现重复故障的团队
  • 需要向客户或老板说明故障原因的人

不适合干什么

  • 故障还没有恢复就急着写最终结论
  • 缺少日志和处理记录的情况
  • 需要法律责任认定的正式调查

普通人怎么用

  • 收集故障时间线
  • 整理影响范围
  • 让AI根据资料生成复盘草稿
  • 人工确认根因
  • 输出预防措施和负责人

进阶用户怎么用

  • 把复盘模板标准化
  • 区分直接原因、根本原因和触发因素
  • 把改进项进入任务系统
  • 定期回查改进项是否完成

常见误区

  • 只写谁的问题,不写系统怎么改
  • 没有明确时间线
  • 把猜测写成根因
  • 预防措施没有负责人和截止时间

和相似工具的区别

  • 事故复盘 vs 告警分析:告警分析发生在故障处理中,事故复盘发生在恢复后。
  • 事故复盘 vs 工作总结:事故复盘重点是根因和预防,工作总结重点是过程和结果。

入门步骤

  • 收集告警、日志和处理记录
  • 按时间排序
  • 让AI生成初稿
  • 人工确认根因
  • 把改进项分配给负责人

推荐工具(第三方)

ChatGPT、Claude、Sentry、Grafana、Linear、Jira