GoForum🌐 V2EX

压缩上下文居然吃不到缓存?告诉我不是最后一个知道的

lel020 · 2026-05-11 00:10 · 0 次点赞 · 7 条回复

Copilot 难民无法承受高昂的 AI 费用,终于堕落到使用中转站了,为此专门搭了个中转站的中转站 metapi, 本意是方便切换中转站的话,不用修改客户端配置, 后台有记录使用日志,能记录输入输出缓存以及价格, 偶然发现,在大部分走缓存的情况下,会突然出现一个请求,基本不走缓存,导致单独这一个请求价格特别高,基本上在 10 倍左右

今天留意了一下,感觉像是压缩上下文导致的。最后一次主动压缩终于确认,就是压缩上下文, 我想了一下,应该是压缩上下文的请求中指令有一些不一样,导致这个不同点之后的内容全部缓存不到,

应该不是中转站本身的问题吧?

亏我原本还想着为了省 token ,提高了使用主动压缩上下文的频率。原以为一个小任务结束,压缩一下再继续是最好的,坑了, https://i.imgur.com/wqK7yZj.png

7 条回复
bwnjnOEI · 2026-05-11 00:40
#1

正常好像压缩过程本身还应该走缓存,压缩之后算新的 session 从头开始预填充

106npo · 2026-05-11 00:45
#2

压缩本来就是在重建上下文,而且是个超长输出的任务. 输出很贵+下次请求要重建缓存.

dockerhub · 2026-05-11 01:05
#3

压缩是在原来的上下文之前加入提示词,大概内容是告知模型对以下内容进行总结。开头破坏了,就不会梦中缓存了。

lel020 · 2026-05-11 01:10
#4

@bwnjnOEI 我也是这么想的,但是刚刚粗看了一下调试信息,发现压缩上下文这个请求开头没有携带 skill 列表, 这应该就是重要的分歧了。这之前的系统指令依然走了缓存,这之后的所有内容就和普通的请求对不上了 @106npo 输出并不多,压缩非常狠,有用没用的都丢了,几百 K 可能压缩到 1K , 主要成本还是无缓存的输入 @dockerhub 确实是开头被破坏了,不过我看提示词好像没有找到区别,也可能是提示词太长了,没有去仔细对比它。但我发现了关键区别是 skill 列表没有了

AlexaZhou · 2026-05-11 01:20
#5

只能说是实现的有问题,并不是必须设计成这样,可能过几个版本又修好了也说不定

我自己实现的多 agent 系统,压缩上下文的时候,就可以命中缓存, https://github.com/alexazhou/TogoSpace

lel020 · 2026-05-11 01:30
#6

哎,AI 时代的经验有明显偏科啊, 以前一直用按次计费的时候,压根不用考虑 token 消耗问题, 现在就很容易焦虑这方面

Nzelites · 2026-05-11 01:40
#7

路过说个题外话,我感觉未来可能 ai 的编排会比单一 ai 的强劲实力重要(在顶端 ai 水平差距越来越小,价格却有极大差距的情况下)良好的编排或许可以让多个廉价的优秀 ai 打赢一个高价的高级 ai ?

添加回复
你还需要 登录 后发表回复

登录后可发帖和回复

登录 注册
主题信息
作者: lel020
发布: 2026-05-11
点赞: 0
回复: 0