午夜咖啡午夜咖啡

jolestar 的文章与笔记。

Post

Vibe Coding 需要验收,不只是测试

2025-12-11 11:48:12Post

生成速度不是核心矛盾,真正困难的是如何确认 AI 给出的结果没有用一套漂亮输出掩盖逻辑错误。

Vibe Coding 让我越来越警惕的一件事是:问题往往不在“AI 能不能把东西写出来”,而在“你怎么确认它写出来的东西真的在正确位置生效”。

我前面就遇到过一次很典型的情况。

让 AI 实现一个比较复杂的特性,因为我没持续盯 review,就让它自己补 e2e 测试,再让另外一个 AI 去 review,迭代来回修。最后看报告非常漂亮:

  • 功能实现了
  • 测试也通过了
  • review 反馈也都处理了

看起来像一个标准的成功案例。

结果最后把 PR 丢给 GitHub Copilot 再看一遍,才发现它在最底层核心逻辑里其实做了两套实现。

其中一套实现了代码,但没 import;真正生效的反而是另外一个 mock 版本。

也就是说,从“表面成果”看,它像是把活干完了;但从“真实生效路径”看,核心逻辑根本没有按预期工作。

这件事让我更明确地意识到:

  • AI 会补测试,不等于验收完成
  • AI 会修 review,不等于核心逻辑正确
  • 报告写得完整,不等于系统真实行为和你理解的一致

所以 Vibe Coding 后面最大的挑战,不是生成速度,也不是 PR 数量,而是验收机制。

你必须有办法验证:

  • 哪段代码真正被调用了
  • 哪条路径真实参与了运行
  • 测试覆盖的是 mock 结果,还是真实逻辑
  • review 看的到底是表层症状,还是执行路径本身

否则就很容易被一种“看起来非常像交付完成”的结果糊弄过去。

我现在越来越倾向于认为,AI 编程后半程真正需要补的,不是更多生成能力,而是更硬的验收能力。没有这层能力,越自动化,反而越容易在表面正确里积累深层错误。