GoForum › 🌐 V2EX

目前 Claude 模型和国产模型的差异，是 iPhone 和国产安卓旗舰的差异还是 iPhone 和诺基亚的差异？

jukanntenn · 2026-01-25 17:02 · 0 次点赞 · 5 条回复

因为封锁 + 懒得折腾，现在个人的 AI 开发套件是 TRAE 国际版 + GLM 4.7 coding plan 。

目前个人体验是 GLM 4.7 已经基本满足全部开发需求了，TRAE SOLE 模式用完 GPT 5.2 或者 gemini 的额度就切到 GLM 4.7 ，感受不到落差。目前不尽如人意的地方是任务大一点（包含几个可能存在交叉依赖的小任务），这三个模型基本都挂挂，我现在都是尽可能将任务拆成小的原子任务，一次只做一件事，然后 plan -> 执行 -> 验收 -> 让 AI 调整这一套流程走一轮，无论哪个模型都完成的不错。

现在非常好奇的是如果换 Claude opus 4.5 效果会怎么样，是不是大任务它也可以一次性完成，达到满意的效果？网上看了一些评测，要么就是“Claude 无敌，用了你就回不去了，GPT/GEMINI 反复搞了几个小时，换 Claude 几分钟搞定”这种无意义的评论，要么就是“用 Claude/GPT/GEMINI/GLM 生成一个美观高级的网站”这种无意义的评测，很好奇这些模型在实际开发中到底存在多大的差距。

如果是 iPhone 和国产安卓旗舰的差异，那我感觉 GLM / MiniMax 之类的国产模型也完全足够日常使用，毕竟这些国产模型对我来说近乎无限量了（ GLM 5 小时限额窗口内很少用超 50%），现在每天绞尽脑汁怎么多烧点 token 。而如果是 iPhone 和诺基亚的差异，那应该突破一切封锁去使用 Claude 模型，毕竟时间也是金钱。

后续我想计划在实际开发场景下对比测试 GLM/MiniMax/Doubao 和 Claude 模型。想听听大家的看法，或者分享分享在实际开发场景下的对比。

5 条回复

zizon · 2026-01-25 17:12

看了正文确定你的标题是认真的.

Linioi · 2026-01-25 17:22

我感觉还是看你问题的难度。就像一张卷子，GLM 考 99 分可能是它只能考 99 分，Claude 考 100 分是因为卷子只有 100 分。 Claude Opus 4.5 使用体验真的很不错，从语气到实际表现我都挺满意的，也不像以前模型总喜欢吹嘘自己代码是生产级。所以可以用 Claude Opus 4.5 我基本不考虑别的模型。

shakaraka · 2026-01-25 17:27

有点疑惑，你想知道差距你自己试试不就知道了，别人和你说的都是主观评价

jukanntenn · 2026-01-25 17:27

@shakaraka 嗯，目前处于计划中，动手前听听大家的经验也不错。v2ex 真实开发者居多，他们的感受比小红书、知乎那些营销号可信度高很多。

billzhuang · 2026-01-25 17:47

这事为什么要计划？

添加回复

你还需要登录后发表回复

登录后可发帖和回复

登录注册

主题信息

作者: jukanntenn

发布: 2026-01-25

点赞: 0

回复: 0