GoForum › 🌐 V2EX
Gemini、GPT、Opus 模型测评
anlitechnet ·
2026-03-17 10:52 ·
0 次点赞 · 5 条回复
分别用 Gemini 3.1 Pro ( v1 )、GPT-5.4 ( v2 )、Claude Opus 4.6 ( v3 )实现了同一件事,每个 AI 得分如下。
| 层级 | 文件 | V1 | V2 | V3 |
|---|---|---|---|---|
| L1 法典 | backend-tech-spec.md |
32 | 71 | 95 |
| L1 法典 | frontend-tech-spec.md |
34 | 72 | 94 |
| L1 法典 | engineering-spec.md |
58 | 78 | 92 |
| L2 Rule | backend-global-rule.mdc |
55 | 78 | 93 |
| L2 Rule | frontend-global-rule.mdc |
57 | 79 | 94 |
| L3 Skill | backend-new-module/SKILL.md |
53 | 74 | 96 |
| L3 Skill | frontend-new-view/SKILL.md |
51 | 72 | 97 |
| L3 Skill | backend-code-review/SKILL.md |
62 | 69 | 95 |
| L3 Skill | frontend-code-review/SKILL.md |
61 | 67 | 94 |
| 加权平均 | 51.4 | 73.3 | 94.4 |
6.2 各维度综合得分
| 维度 | V1 | V2 | V3 |
|---|---|---|---|
| 覆盖完整性 | 46 | 70 | 95 |
| 内容精准性 | 43 | 68 | 95 |
| 可执行性 | 48 | 72 | 96 |
| 工程成熟度 | 68 | 83 | 91 |
| 综合 | 51 | 73 | 94 |
6.3 版本定性结论
| 版本 | 综合评分 | 等级 | 定性 | 可否投入使用 |
|---|---|---|---|---|
| V1 | 51.4 | D | 原型验证版( Demo 级) | ❌ 不可,仅供概念验证 |
| V2 | 73.3 | B | 可用版( MVP 级) | ⚠️ 可用于小范围试点,需持续迭代 |
| V3 | 94.4 | A+ | 生产就绪版( Production 级) | ✅ 推荐投入生产使用 |
5 条回复
添加回复
你还需要 登录
后发表回复
好的 立马去用 Gemini