GoForum🌐 V2EX

关于 RAG/CKG 的问题咨询

jolly336 · 2026-01-14 17:43 · 0 次点赞 · 1 条回复

现在公司有超过百万文件的大仓,在现有的 AI Agent (Cursor/ClaudeCode/Antigravity)下可以 Agentic Search 走 grep 、find 、ls 等命令根据关键词全局找相关代码,然后修改,但这种有几个问题:

  1. 检索能力受限 在大仓上,检索的关键词容易遗漏关键路径,把不相干的内容加入时会占用上下文窗口,后续模型会遗漏一些文件;
  2. 缺少代码结构 检索是 AI 自己给的关键词进行,缺乏真实代码的语义和代码调用、依赖关系等

因此,我们实现了一个 CKG 方案,解析了文件结构之后,分析出依赖、调用关系之后生成代码摘要,然后向量存储,最后提供 MCP 给 Agent 做大仓代码检索。

但理想是好的,现实使用时遇到了问题:

  • 查询的错配 当使用自然语言提问时(如:我的头像双击逻辑),Agent 在调用 CKG MCP 时给到工具的 query 关键词可能是 “avatar double click”、”user icon interaction” 等,会丢了我的,这样检索出来的结果会不理想,再重排序意义也不大,因为召回的内容不匹配,本质还是关键词由 LLM 生成的,有一定的不可靠;

关于这个大家有什么好的想法?

1 条回复
111111111111 · 2026-01-14 18:03
#1

请求来自于 agent ,可以考虑使用一个 LLM 对请求进行加工和理解(比如翻译为中英双语、生成多个候选检索词),然后再进行检索 另外谷歌提过 agent call agent 的思路,可以考虑做一个 agent 来进行细致可控的检索,然后通过 mcp 提供给原 agent

添加回复
你还需要 登录 后发表回复

登录后可发帖和回复

登录 注册
主题信息
作者: jolly336
发布: 2026-01-14
点赞: 0
回复: 0