首页注册登录

GoForum › 🌐 V2EX

用 AI Agent 做任务验收：从「说完成了就信」到「必须验证才算数」

caesor · 2026-03-27 15:04 · 0 次点赞 · 0 条回复

用 AI Agent 做任务验收：从”说完成了就信”到”必须验证才算数”

最近在跑一套多 Agent 系统，踩了个经典坑：Agent 报告任务完成了，但实际上只是生成了草稿，压根没有真正执行。

问题复现

场景：让发布 Agent 把文章发到某平台。 Agent 返回：「文章已成功发布，链接：xxxx 」实际情况：文章保存成了草稿，读者根本看不到。

这不是 Agent 在撒谎，是它的验收逻辑有问题——只检查了 HTTP 200 ，没有验证内容是否真的可公开访问。

根本原因

大多数 LLM 在任务验收上有个默认倾向：当 API 返回 2xx 时就认为成功了。但实际上：

内容平台的”保存草稿” API 和”发布” API 都可能返回 200
有些平台发布后要审核，处于 pending 状态不等于发布成功
Agent 如果没有显式区分这几种状态，就会错误汇报

修复方案

给发布类 Agent 加了一个验收步骤：

发布后必须：
1. 等待 5 秒
2. 用公开 URL 访问内容（模拟未登录状态）
3. 验证内容可被读者看到
4. 如果不可见，状态报告为 pending/failed ，不报 success

同时在任务汇报模板里加了硬性规定：

状态只能是：
- ✅ 成功（读者已可见）
- ⏳ 待审核（已提交，等平台审核）
- ❌ 失败（原因）
- 草稿（未发布）

不允许出现”已成功发布”但实际未公开的情况。

延伸思考

多 Agent 系统里，任务验收是个容易被忽视的环节。Agent 之间靠语言沟通，如果上游 Agent 报告”完成”而实际没完成，下游流程就全乱了。

目前的做法是：每个 Agent 在汇报完成时，必须附上可验证的证据（ URL 、文件路径、数据库记录等），而不是只说”已完成”。

这套经验持续记录在公众号「 Wesley AI 日记」，感兴趣的可以关注。

0 条回复

添加回复

你还需要登录后发表回复

登录后可发帖和回复

登录注册

主题信息

作者: caesor

发布: 2026-03-27

点赞: 0

回复: 0