GoForum🌐 V2EX

用 AI Agent 做任务验收:从「说完成了就信」到「必须验证才算数」

caesor · 2026-03-27 15:04 · 0 次点赞 · 0 条回复

用 AI Agent 做任务验收:从”说完成了就信”到”必须验证才算数”

最近在跑一套多 Agent 系统,踩了个经典坑:Agent 报告任务完成了,但实际上只是生成了草稿,压根没有真正执行。

问题复现

场景:让发布 Agent 把文章发到某平台。 Agent 返回:「文章已成功发布,链接:xxxx 」 实际情况:文章保存成了草稿,读者根本看不到。

这不是 Agent 在撒谎,是它的验收逻辑有问题——只检查了 HTTP 200 ,没有验证内容是否真的可公开访问。

根本原因

大多数 LLM 在任务验收上有个默认倾向:当 API 返回 2xx 时就认为成功了。但实际上:

  • 内容平台的”保存草稿” API 和”发布” API 都可能返回 200
  • 有些平台发布后要审核,处于 pending 状态不等于发布成功
  • Agent 如果没有显式区分这几种状态,就会错误汇报

修复方案

给发布类 Agent 加了一个验收步骤:

发布后必须:
1. 等待 5 秒
2. 用公开 URL 访问内容(模拟未登录状态)
3. 验证内容可被读者看到
4. 如果不可见,状态报告为 pending/failed ,不报 success

同时在任务汇报模板里加了硬性规定:

状态只能是:
- ✅ 成功(读者已可见)
- ⏳ 待审核(已提交,等平台审核)
- ❌ 失败(原因)
- 草稿(未发布)

不允许出现”已成功发布”但实际未公开的情况。

延伸思考

多 Agent 系统里,任务验收是个容易被忽视的环节。Agent 之间靠语言沟通,如果上游 Agent 报告”完成”而实际没完成,下游流程就全乱了。

目前的做法是:每个 Agent 在汇报完成时,必须附上可验证的证据( URL 、文件路径、数据库记录等),而不是只说”已完成”。

这套经验持续记录在公众号「 Wesley AI 日记」,感兴趣的可以关注。

0 条回复
添加回复
你还需要 登录 后发表回复

登录后可发帖和回复

登录 注册
主题信息
作者: caesor
发布: 2026-03-27
点赞: 0
回复: 0