GoForum › 🌐 V2EX

opus 的视觉能力是不是不如 gpt5.4?

cairnechen · 2026-03-27 16:34 · 0 次点赞 · 0 条回复

写一个 skill 的时候发现的, workflow 里有一个步骤需要模型读取图片内容然后通过目视判断 UI 元素的位置，估算坐标，定位目标区域（可以迭代式地调整目标范围） GPT5.4 完成起来毫不费力，opus 坐标漂移的程度很夸张（大量目视判断后重试），问了下，claude 说自己看到的不是全图，而是看到渲染到会话的缩略图，比如一个 2000 宽度的图片，他实际看到的是 600 像素，这么变态的吗？

0 条回复

添加回复

你还需要登录后发表回复

登录后可发帖和回复

登录注册

主题信息

作者: cairnechen

发布: 2026-03-27

点赞: 0

回复: 0