SDD 证据日志模板
当“评审通过”还不足以证明安全时,用证据日志记录每条验收标准如何被验证、证据在哪里、上线时看哪个停止信号。
# Evidence Log Spec: Release: Owner: Date: ## Acceptance Evidence | Criterion | Evidence | Link | Result | | --- | --- | --- | --- | | AC-1 | Test | | Pass/Fail | | AC-2 | Screenshot | | Pass/Fail | ## Operational Evidence - Log query: - Metric: - Alert: - Stop signal: ## Manual Checks - [ ] ... ## Known Gaps - Gap: - Risk: - Owner: - Follow-up date:
什么时候使用这份模板
- 发布影响资金、数据完整性、权限或客户可见状态。
- 评审者需要看证据,而不是只看总结。
- 团队想保留稳定的发布说明和回滚上下文。
- AI 生成代码在合并前必须提供具体证据。
填好后应该是什么样
模板只有在写入真实决策、负责人和证据后才有价值。下面是一个可评审的片段。
| Criterion | Evidence | Link | Result | | --- | --- | --- | --- | | AC-2 重放幂等 | Integration test | refund_timeout_replay | Pass | | AC-3 客服阻断 | Screenshot | support-refund-pending.png | Pass | Stop signal: duplicate_refund_attempts > 0.5% 持续 15 分钟。
场景笔记:高风险发布需要可复查证据
支付变更已经通过单元测试,但发布负责人还需要证明重放、客服阻断和上线监控能一起工作。证据日志把这些说法变成可检查产物。
容易出错的地方:如果证据只写“QA 看过”,下一位评审者无法复现结果,也不知道哪个信号应该停止发布。
- 评审动作:评审者应逐条检查验收标准,拒绝没有测试、截图、日志查询、指标或负责人信息的证据行。
- 证据要求:填好的版本至少应包含一条自动化测试、一个可人工检查的产物,以及一个面向生产的停止信号。
怎样把模板改成真实项目内容
不要只替换标题和日期。真正有价值的版本,应该把每个占位字段都变成一个可评审决定:谁负责、什么行为必须成立、哪些范围明确不做、合并前需要看到什么证据。如果某个字段暂时无法填写,就把它保留为开放问题,而不是用含糊段落盖过去。
使用这份 evidence.md 时,先写当前最可能导致返工的部分。对很多团队来说,那不是实现步骤,而是边界、例外、兼容性或发布证据。模板越早暴露这些问题,AI 编码或人工实现时越不容易顺手扩大范围。
- 推荐场景:发布影响资金、数据完整性、权限或客户可见状态。
- 评审重点:每条验收标准都有证据类型和结果。
- 强写法参考:AC-2 由 refund_timeout_replay 覆盖,AC-3 由客服 UI 截图验证,上线停止信号是 duplicate_refund_attempts 超过 0.5% 持续 15 分钟。
建议的评审路径
第一轮只看范围:目标是否单一,非目标是否能阻止常见扩张,影响系统是否被点名。第二轮看可验证性:验收标准是否描述了状态、触发和可观察结果,而不是“应该更好用”这类愿望句。第三轮看证据:测试、截图、日志、指标或手工检查是否能证明每条标准。
把这份模板交给 AI 编码工具前,应该先让人类评审者确认允许修改的文件、不可改动的接口、迁移顺序和停止信号。这样 AI 得到的是一份可执行规格,而不是一段看起来很完整但仍然模糊的提示词。
- 实现前:确认开放问题没有阻塞行为判断。
- 实现中:每个任务都回到这份模板里的标准或约束。
- 合并前:用证据证明结果,而不是只写“测试通过”。
实现前先检查这些点
- 每条验收标准都有证据类型和结果。
- 运行时信号是具体查询、看板、指标或告警。
- 已知缺口有负责人和日期。
- 回滚或停止信号对发布评审者可见。
弱写法 vs 强写法
弱写法
测试通过,QA 看过了。
强写法
AC-2 由 refund_timeout_replay 覆盖,AC-3 由客服 UI 截图验证,上线停止信号是 duplicate_refund_attempts 超过 0.5% 持续 15 分钟。
什么时候可以认为它不是空模板
这类页面最容易变薄的地方,是只提供一个漂亮骨架,却没有说明如何判断填写质量。一个合格版本至少要能回答三件事:这个变更为什么需要现在做;哪些范围被明确排除;合并前用什么证据证明行为没有偏离。
如果你把模板用于真实工作,建议在 PR 描述里附上最终文件,并标出哪些段落在实现中发生过变化。规格不是一次性文档,它应该随着实现证据一起更新。读者复制这份模板时,也应该复制这种习惯:所有看起来像决定的内容,都要能被评审和追踪。
- 最低证据:至少一条自动化测试或契约 fixture。
- 高风险证据:补截图、日志查询、指标或回滚信号。
- 后续证据:对已知缺口写负责人和复查日期。
它在完整 SDD 包里负责什么
不要把所有内容都塞进同一个文件。evidence.md 只负责它最擅长的那一层:把某一类决定写到可以评审、可以引用、可以更新的地方。范围、设计、任务和证据应该彼此连接,但不应该互相吞掉。这样做的好处是,当实现过程中发现新事实时,团队能准确知道应该更新哪一个文件。
实际使用时,可以把这份模板和相关资源串成一条很短的链路:先写规格或提案,再补设计或任务,最后把证据回填到 PR。读者复制模板时,也应该复制这条链路。单独一个漂亮模板不会提高交付质量;可追溯的文件链路才会。
如果页面被拿来做团队规范,建议在仓库里保留一个填好后的样例,而不是只放空模板。样例能告诉新成员什么算“足够具体”,也能让 AI 编码工具学习团队真正接受的边界和证据格式。
- 上游输入:明确的用户问题、系统约束和已知失败模式。
- 下游输出:可执行任务、评审问题、测试证据或发布门禁。
- 维护方式:每次实现改变决定时,同步更新对应规格文件。
FAQ
每次变更都要证据日志吗?
不需要。高风险发布、API 变更、迁移、支付流、权限和 AI 生成 diff 更适合使用。
什么算证据?
测试、fixture、截图、日志查询、指标、看板、告警、手工检查或发布门禁。
它为什么能提高内容质量?
读者看到的是可操作的交付产物,而不是抽象建议;团队也能把评审变成可复现流程。
相关资源
编辑说明
这份模板面向 spec-driven development 工作流,示例用于展示结构,不代表特定公司的内部流程。
- 作者: Daniel Marsh
- 编辑政策: 我们如何审阅和更新内容
建议把它放在仓库的 /docs/specs/ 或 /.specs/ 下,并在实现过程中持续更新。最后更新:2026 年 5 月 19 日。