GoForum🌐 V2EX

Gemini、GPT、Opus 模型测评

anlitechnet · 2026-03-17 10:52 · 0 次点赞 · 5 条回复

分别用 Gemini 3.1 Pro ( v1 )、GPT-5.4 ( v2 )、Claude Opus 4.6 ( v3 )实现了同一件事,每个 AI 得分如下。

层级 文件 V1 V2 V3
L1 法典 backend-tech-spec.md 32 71 95
L1 法典 frontend-tech-spec.md 34 72 94
L1 法典 engineering-spec.md 58 78 92
L2 Rule backend-global-rule.mdc 55 78 93
L2 Rule frontend-global-rule.mdc 57 79 94
L3 Skill backend-new-module/SKILL.md 53 74 96
L3 Skill frontend-new-view/SKILL.md 51 72 97
L3 Skill backend-code-review/SKILL.md 62 69 95
L3 Skill frontend-code-review/SKILL.md 61 67 94
加权平均 51.4 73.3 94.4

6.2 各维度综合得分

维度 V1 V2 V3
覆盖完整性 46 70 95
内容精准性 43 68 95
可执行性 48 72 96
工程成熟度 68 83 91
综合 51 73 94

6.3 版本定性结论

版本 综合评分 等级 定性 可否投入使用
V1 51.4 D 原型验证版( Demo 级) ❌ 不可,仅供概念验证
V2 73.3 B 可用版( MVP 级) ⚠️ 可用于小范围试点,需持续迭代
V3 94.4 A+ 生产就绪版( Production 级) ✅ 推荐投入生产使用
5 条回复
lcy630409 · 2026-03-17 10:57
#1

好的 立马去用 Gemini

shyrock2026 · 2026-03-17 10:57
#2

op 的数据附合我的感受。

opus4.6 确实可以直接把系统写好给你。。。

Razio · 2026-03-17 11:07
#3

@lcy630409 #1 油盐不进是吧

swaylq · 2026-03-17 11:12
#4

分数跟我体感差不多,Opus 写出来的代码确实最稳,基本不用大改。不过日常干活我还是 Sonnet 用得多,Opus 太贵而且慢,简单任务杀鸡用牛刀。GPT 最近进步挺大但偶尔会自作主张改你没让它改的地方,得盯着点。

ChipWat · 2026-03-17 11:12
#5

Sonnet 很差,真的是浪费时间,要么就 Ops ,要么就 GLM 凑活

添加回复
你还需要 登录 后发表回复

登录后可发帖和回复

登录 注册
主题信息
作者: anlitechnet
发布: 2026-03-17
点赞: 0
回复: 0