GoForum🌐 V2EX

目前 Claude 模型和国产模型的差异,是 iPhone 和国产安卓旗舰的差异还是 iPhone 和诺基亚的差异?

jukanntenn · 2026-01-25 17:02 · 0 次点赞 · 5 条回复

因为封锁 + 懒得折腾,现在个人的 AI 开发套件是 TRAE 国际版 + GLM 4.7 coding plan 。

目前个人体验是 GLM 4.7 已经基本满足全部开发需求了,TRAE SOLE 模式用完 GPT 5.2 或者 gemini 的额度就切到 GLM 4.7 ,感受不到落差。目前不尽如人意的地方是任务大一点(包含几个可能存在交叉依赖的小任务),这三个模型基本都挂挂,我现在都是尽可能将任务拆成小的原子任务,一次只做一件事,然后 plan -> 执行 -> 验收 -> 让 AI 调整这一套流程走一轮,无论哪个模型都完成的不错。

现在非常好奇的是如果换 Claude opus 4.5 效果会怎么样,是不是大任务它也可以一次性完成,达到满意的效果?网上看了一些评测,要么就是“Claude 无敌,用了你就回不去了,GPT/GEMINI 反复搞了几个小时,换 Claude 几分钟搞定”这种无意义的评论,要么就是“用 Claude/GPT/GEMINI/GLM 生成一个美观高级的网站”这种无意义的评测,很好奇这些模型在实际开发中到底存在多大的差距。

如果是 iPhone 和国产安卓旗舰的差异,那我感觉 GLM / MiniMax 之类的国产模型也完全足够日常使用,毕竟这些国产模型对我来说近乎无限量了( GLM 5 小时限额窗口内很少用超 50%),现在每天绞尽脑汁怎么多烧点 token 。而如果是 iPhone 和诺基亚的差异,那应该突破一切封锁去使用 Claude 模型,毕竟时间也是金钱。

后续我想计划在实际开发场景下对比测试 GLM/MiniMax/Doubao 和 Claude 模型。想听听大家的看法,或者分享分享在实际开发场景下的对比。

5 条回复
zizon · 2026-01-25 17:12
#1

看了正文确定你的标题是认真的.

Linioi · 2026-01-25 17:22
#2

我感觉还是看你问题的难度。 就像一张卷子,GLM 考 99 分可能是它只能考 99 分,Claude 考 100 分是因为卷子只有 100 分。 Claude Opus 4.5 使用体验真的很不错,从语气到实际表现我都挺满意的,也不像以前模型总喜欢吹嘘自己代码是生产级。所以可以用 Claude Opus 4.5 我基本不考虑别的模型。

shakaraka · 2026-01-25 17:27
#3

有点疑惑,你想知道差距你自己试试不就知道了,别人和你说的都是主观评价

jukanntenn · 2026-01-25 17:27
#4

@shakaraka 嗯,目前处于计划中,动手前听听大家的经验也不错。v2ex 真实开发者居多,他们的感受比小红书、知乎那些营销号可信度高很多。

billzhuang · 2026-01-25 17:47
#5

这事为什么要计划?

添加回复
你还需要 登录 后发表回复

登录后可发帖和回复

登录 注册
主题信息
作者: jukanntenn
发布: 2026-01-25
点赞: 0
回复: 0