GoForum🌐 V2EX

opus 的视觉能力是不是不如 gpt5.4?

cairnechen · 2026-03-27 16:34 · 0 次点赞 · 0 条回复

写一个 skill 的时候发现的, workflow 里有一个步骤需要模型读取图片内容然后通过目视判断 UI 元素的位置,估算坐标,定位目标区域(可以迭代式地调整目标范围) GPT5.4 完成起来毫不费力,opus 坐标漂移的程度很夸张(大量目视判断后重试),问了下,claude 说自己看到的不是全图,而是看到渲染到会话的缩略图,比如一个 2000 宽度的图片,他实际看到的是 600 像素,这么变态的吗?

0 条回复
添加回复
你还需要 登录 后发表回复

登录后可发帖和回复

登录 注册
主题信息
作者: cairnechen
发布: 2026-03-27
点赞: 0
回复: 0