Post
Vibe Coding 需要验收,不只是测试
生成速度不是核心矛盾,真正困难的是如何确认 AI 给出的结果没有用一套漂亮输出掩盖逻辑错误。
Vibe Coding 让我越来越警惕的一件事是:问题往往不在“AI 能不能把东西写出来”,而在“你怎么确认它写出来的东西真的在正确位置生效”。
我前面就遇到过一次很典型的情况。
让 AI 实现一个比较复杂的特性,因为我没持续盯 review,就让它自己补 e2e 测试,再让另外一个 AI 去 review,迭代来回修。最后看报告非常漂亮:
- 功能实现了
- 测试也通过了
- review 反馈也都处理了
看起来像一个标准的成功案例。
结果最后把 PR 丢给 GitHub Copilot 再看一遍,才发现它在最底层核心逻辑里其实做了两套实现。
其中一套实现了代码,但没 import;真正生效的反而是另外一个 mock 版本。
也就是说,从“表面成果”看,它像是把活干完了;但从“真实生效路径”看,核心逻辑根本没有按预期工作。
这件事让我更明确地意识到:
- AI 会补测试,不等于验收完成
- AI 会修 review,不等于核心逻辑正确
- 报告写得完整,不等于系统真实行为和你理解的一致
所以 Vibe Coding 后面最大的挑战,不是生成速度,也不是 PR 数量,而是验收机制。
你必须有办法验证:
- 哪段代码真正被调用了
- 哪条路径真实参与了运行
- 测试覆盖的是 mock 结果,还是真实逻辑
- review 看的到底是表层症状,还是执行路径本身
否则就很容易被一种“看起来非常像交付完成”的结果糊弄过去。
我现在越来越倾向于认为,AI 编程后半程真正需要补的,不是更多生成能力,而是更硬的验收能力。没有这层能力,越自动化,反而越容易在表面正确里积累深层错误。