事后复盘生成器

把一次事故变成一份可归档的、无责的复盘。填表即得 Markdown。

两到三句话。什么坏了,何时发生,如何解决。

受影响的用户、损失的收入、数据损坏、SLO 消耗。

时间(UTC) + 事件。包含发现、值班、首次行动、恢复等节点。

一个技术层面的机制性解释。

放大或延长事故的系统性因素;讨论"系统哪里有问题",不是"谁的错"。

团队是如何知道的,用了多久。

按顺序写下采取的缓解步骤。

每项需要有责任人和截止日期;平时的事务跟踪请在你的项目管理工具里。

下次会怎么做。聚焦系统,不针对人。

导出前检查

  • 根因保持机制化:说明故障是如何一路扩散的。
  • 每个行动项都要有责任人、截止日期和跟踪位置。
  • 把发现缺口和缓解缺口分开写,后续改进才可测试。
postmortem.md

这个工具实际会产出什么

可进入评审的 Markdown

生成结果适合放进工单、PR 或设计评审。它应在实现开始前写清责任人、决策、证据和后续工作。

事故:重复退款尝试

规格缺口:
- 未定义重试行为
- 客服后台忽略 pending provider 状态

后续:
- 增加幂等验收标准
- 增加支付渠道超时 fixture

导出之后

把生成的复盘草稿当成起点,而不是最终答案。替换示例值,补证据,指定评审人,删掉团队不会维护的字段。

  • 把输出放在实现工作旁边。
  • 每条验收项都要映射到测试或评审证据。
  • 不要粘贴密钥、客户数据或私有事故细节。

什么是好的事后复盘?

一份好的复盘是 无责的机制化的可追踪的。无责:不针对个人,问题在系统。机制化:解释故障如何扩散,而不是"X 坏了"。可追踪:每条结论都有责任人、截止日期,放到你真正会看的跟踪系统里。

延伸阅读:事故复盘:没有合约测试的破坏性 API 变更边界情况清单

如何用好这个生成器

区分事实和解释

时间线里写可验证事实:告警时间、回滚时间、错误率、影响范围和沟通记录。根因和贡献因素再解释为什么这些事实会发生。

让影响可度量

不要只写“部分用户受影响”。尽量补上请求数、失败率、用户数、收入影响、SLO 消耗、数据损坏范围或客服工单数量。

根因保持机制化

好的根因解释系统如何失败,而不是谁犯了错。写清触发点、缺失的护栏、扩散路径、发现缺口,以及现有流程为什么没挡住。

把发现转成有责任人的行动项

每个行动项都应该有责任人、截止日期、跟踪位置和验证方法。“改进监控”不够好;“结账 5xx 超过 2% 持续 5 分钟时告警”才可评审。

关闭事故前的评审问题

发现

团队是从自己的监控、用户反馈,还是下游影响中知道事故的?下次应该由哪个信号更早触发?

缓解

是否存在明确的回滚路径、runbook、功能开关或熔断策略?如果没有,行动项应该提升响应速度,而不只是预防。

预防

哪份规格、测试、迁移检查、合约门禁或评审问题,本来可以在发布前发现这次问题?

弱行动项和强行动项

弱行动项

改进发布检查,增加更好的告警。

这太宽泛,无法分配、验证或关闭。它没有说明哪个检查、哪个告警、什么阈值,以及什么结果能防止复发。

强行动项

新增迁移门禁:禁止没有默认值或回填计划的 NOT NULL 列变更。责任人:数据库平台。截止:2026-05-15。验证:CI 中的失败示例迁移。

这个行动项具体、有负责人、有日期,并且可以测试。

导出之后怎么落地

先开一次短评审会

用草稿和事故响应人员、客服、产品、工程一起核对事实。会议目标不是追责,而是校准时间线、影响范围和证据来源,把没有日志或客户证据支撑的猜测从复盘中移除。

行动项必须进入任务系统

复盘文档不是任务管理工具。每个行动项都要复制到团队 tracker,写清负责人、截止日期、验证方式和事故链接,后续才能确认它真的降低了复发概率或缩短了检测时间。

到期后回看一次

在行动项截止日期后安排一次复查。如果某项只被标记完成却没有测试、监控或 runbook 证据,应重新打开,或拆成更小但可验证的改进项。

复盘关闭前,确认每个行动项都能被独立验证;不能验证的行动项通常只是愿望,不是风险控制。

如果行动项需要多个团队配合,应指定一个最终负责人,否则很容易在跨团队交接中失去跟进。

复盘价值取决于后续行动是否真正关闭。

完成后的复盘应该证明什么

不参加会议也能看懂事故

读者应该能从文档中理解什么失败了、谁受影响、团队如何发现、如何缓解、根因证据来自哪里,而不需要翻内部聊天记录。

后续行动可以被审计

每个行动项都应有任务链接、负责人、截止日期和验证方式,方便之后检查它是否真的完成,以及是否降低了复发概率或检测时间。

导出后如何进入评审

把事实和解释分开

时间线只放带时间戳的事实,根因分析再讨论故障如何扩散。这样复盘时不会把“发生了什么”“为什么发生”和“接下来改什么”混在一起。

行动项进入跟踪系统

Markdown 不是后续工作的唯一记录。把每个行动项复制到团队 issue 系统里,补上负责人、截止时间、验证方式和复盘链接,避免会议结束后失去追踪。

事后复盘常见问题

什么时候写复盘?

事实还新鲜时就开始草稿,但不要在日志、客户影响、时间线和行动项责任人核实前关闭。仓促复盘通常会留下模糊行动项。

行动项多少条合适?

通常两到五条。更多时往往说明团队在罗列所有可能改进,而不是选择最能降低复发或缩短发现时间的少数改变。

这个工具如何设计和复查

面向无责复盘

表单把时间线、影响、发现、响应、根因、经验和行动项分开,避免复盘把事实、解释和后续工作混成一段模糊说明。

按可行动性复查

生成复盘会检查是否说明故障扩散机制、发现和缓解缺口,以及行动项是否有负责人、截止日期和验证方式。

由编辑维护

作者与编辑:Daniel Marsh。复查流程:编辑政策。纠错与工具问题:联系。最近复查:2026 年 4 月 28 日。