AI 编码评审模板

合并 AI 生成代码之前，用这份模板把 diff 和规格对照起来，而不是只判断代码看起来是否合理。

ai-coding-review.md

# AI Coding Review

Spec:
Agent or tool:
Reviewer:
Date:

## Scope Check
- Allowed files:
- Files changed:
- Out-of-scope changes:

## Spec Alignment
- Acceptance criteria satisfied:
- Criteria missing:
- Behavior added outside the spec:

## Evidence
- Tests added or updated:
- Test command:
- Manual check:
- Logs or screenshots:

## Review Decision
- Approve | Request changes | Split PR
- Follow-up owner:
- Notes:

什么时候使用这份模板

代码由 AI 助手或编码代理生成。
diff 修改了请求范围之外的文件。
评审者需要区分有用实现和规格外行为。
团队想为生成代码建立可重复门禁。

填好后应该是什么样

模板只有在写入真实决策、负责人和证据后才有价值。下面是一个可评审的片段。

## Scope Check
- Allowed files: services/refunds/*, tests/refunds/*
- Files changed: services/refunds/retry.ts, tests/refunds/retry.test.ts
- Out-of-scope changes: none

## Spec Alignment
- AC-2 重放幂等：已满足
- 规格外行为：无

场景笔记：保留有用 AI 产出，同时挡住范围漂移

AI 助手正确实现了退款重放，但顺手重命名了一批 helper，还改了规格从未提到的渠道超时常量。

容易出错的地方：如果没有范围检查，评审者可能批准有用行为，同时把无关改动合进主线，让后续事故更难排查。

评审动作：评审者应该先对比允许文件和实际修改文件，再列出任何规格外新增行为，最后才进入代码风格讨论。
证据要求：强评审会把每个保留行为链接到验收标准，并把额外行为拆到后续规格，而不是藏在同一个 PR 里。

怎样把模板改成真实项目内容

不要只替换标题和日期。真正有价值的版本，应该把每个占位字段都变成一个可评审决定：谁负责、什么行为必须成立、哪些范围明确不做、合并前需要看到什么证据。如果某个字段暂时无法填写，就把它保留为开放问题，而不是用含糊段落盖过去。

使用这份 ai-coding-review.md 时，先写当前最可能导致返工的部分。对很多团队来说，那不是实现步骤，而是边界、例外、兼容性或发布证据。模板越早暴露这些问题，AI 编码或人工实现时越不容易顺手扩大范围。

推荐场景：代码由 AI 助手或编码代理生成。
评审重点：修改文件符合允许列表，例外有说明。
强写法参考：diff 只修改允许文件，AC-2 映射到 retry.test.ts，没有新增规格外渠道行为，并且 npm run test -- refunds 本地通过。

建议的评审路径

第一轮只看范围：目标是否单一，非目标是否能阻止常见扩张，影响系统是否被点名。第二轮看可验证性：验收标准是否描述了状态、触发和可观察结果，而不是“应该更好用”这类愿望句。第三轮看证据：测试、截图、日志、指标或手工检查是否能证明每条标准。

把这份模板交给 AI 编码工具前，应该先让人类评审者确认允许修改的文件、不可改动的接口、迁移顺序和停止信号。这样 AI 得到的是一份可执行规格，而不是一段看起来很完整但仍然模糊的提示词。

实现前：确认开放问题没有阻塞行为判断。
实现中：每个任务都回到这份模板里的标准或约束。
合并前：用证据证明结果，而不是只写“测试通过”。

实现前先检查这些点

修改文件符合允许列表，例外有说明。
每个新增行为都能回到规格。
测试覆盖验收标准，而不是只测实现细节。
无关重构被删除或拆成新任务。

弱写法 vs 强写法

弱写法

AI 写的代码看起来不错，测试也过了。

强写法

diff 只修改允许文件，AC-2 映射到 retry.test.ts，没有新增规格外渠道行为，并且 npm run test -- refunds 本地通过。

什么时候可以认为它不是空模板

这类页面最容易变薄的地方，是只提供一个漂亮骨架，却没有说明如何判断填写质量。一个合格版本至少要能回答三件事：这个变更为什么需要现在做；哪些范围被明确排除；合并前用什么证据证明行为没有偏离。

如果你把模板用于真实工作，建议在 PR 描述里附上最终文件，并标出哪些段落在实现中发生过变化。规格不是一次性文档，它应该随着实现证据一起更新。读者复制这份模板时，也应该复制这种习惯：所有看起来像决定的内容，都要能被评审和追踪。

最低证据：至少一条自动化测试或契约 fixture。
高风险证据：补截图、日志查询、指标或回滚信号。
后续证据：对已知缺口写负责人和复查日期。

它在完整 SDD 包里负责什么

不要把所有内容都塞进同一个文件。ai-coding-review.md 只负责它最擅长的那一层：把某一类决定写到可以评审、可以引用、可以更新的地方。范围、设计、任务和证据应该彼此连接，但不应该互相吞掉。这样做的好处是，当实现过程中发现新事实时，团队能准确知道应该更新哪一个文件。

实际使用时，可以把这份模板和相关资源串成一条很短的链路：先写规格或提案，再补设计或任务，最后把证据回填到 PR。读者复制模板时，也应该复制这条链路。单独一个漂亮模板不会提高交付质量；可追溯的文件链路才会。

如果页面被拿来做团队规范，建议在仓库里保留一个填好后的样例，而不是只放空模板。样例能告诉新成员什么算“足够具体”，也能让 AI 编码工具学习团队真正接受的边界和证据格式。

上游输入：明确的用户问题、系统约束和已知失败模式。
下游输出：可执行任务、评审问题、测试证据或发布门禁。
维护方式：每次实现改变决定时，同步更新对应规格文件。

FAQ

可以相信 AI 的测试总结吗？

不应该只相信总结。模板要求写出命令和证据，让评审者能复现或检查。

多出来的行为怎么办？

删除、拆成新规格，或先更新当前规格再合并。

非 AI 代码能用吗？

可以。它也适合大 PR 或高风险改动，只是特别针对 AI 漂移。

AI 编码相关专题

当指南、模板或文章准备进入生成代码阶段时，可以用这些专题补齐范围、验收和评审证据。

编辑说明

这份模板面向 spec-driven development 工作流，示例用于展示结构，不代表特定公司的内部流程。

作者: Spec Coding 编辑部
编辑政策: 我们如何审阅和更新内容

建议把它放在仓库的 /docs/specs/ 或 /.specs/ 下，并在实现过程中持续更新。最后更新：2026 年 5 月 19 日。