GoForum🌐 V2EX

给大模型们做了一个奇怪的测试

165924 · 2026-03-18 21:47 · 0 次点赞 · 0 条回复

教务系统有个 API 会返回一大堆混合着英文和拼音缩写的字段,除去我自己也猜不出来是啥意思的一共 72 个。这些东西大模型应该训练不到,很多缩写人类都很难猜。

除了网页提问的两个模型,其余均是调用 API+最大思考深度,chatgpt 5.4 mini 思考陷入循环,所以没有结果。

PS:claude opus 烧了 3 块钱😠,gpt5.4xhigh 烧了 4 块钱😡,其余的都不到 1 块。

没有重复测试,纯图一乐,勿认真。

模型正确率

排名 模型 正确字段数 计分字段数 正确率
1 gemini-pro-网页 67 72 93.06%
2 chatgpt-5.4-xhigh 63 72 87.50%
3 claude-opus-4.6-xhigh 63 72 87.50%
4 gemini-3.1-pro-aistudio 63 72 87.50%
5 chatgpt-发散性思考-网页 60 72 83.33%
6 gemini-3-flash-aistudio 60 72 83.33%
7 gemini-3.1-flash-lite-aistudio 57 72 79.17%
8 glm-5-turbo 56 72 77.78%
9 deepseek v3.2 50 72 69.44%
10 qwen3.5-plus-thinking 50 72 69.44%
11 chatgpt-5.4-nano-xhigh 48 72 66.67%
12 grok-4.2-beta 47 72 65.28%

最容易的字段( Top 10 )

原字段 正确 正确模型数 模型总数 正确率
aqfzr 安全负责人 12 12 100.00%
cdjb 场地级别 12 12 100.00%
cjr 创建人 12 12 100.00%
cjsj 创建时间 12 12 100.00%
gly 管理员 12 12 100.00%
gnqid 功能区 ID 12 12 100.00%
isdel 是否删除 12 12 100.00%
isjk 是否监控 12 12 100.00%
jiaoshihao 教室号 12 12 100.00%
jsbq 教室标签 12 12 100.00%

最难的字段( Bottom 10 )

原字段 正确 正确模型数 模型总数 正确率
sxpkzdbjs 顺序排课最大班级数 0 12 0.00%
kscddw 考试承担单位 1 12 8.33%
sxtip 摄像头 IP 2 12 16.67%
fjnr 附件内容 4 12 33.33%
gzpkyxj 规则排课优先级 4 12 33.33%
jkdwybs 监控点位标识 4 12 33.33%
jlsj 建立时间 4 12 33.33%
isbsks 是否笔试考试 5 12 41.67%
iskt 是否空调 5 12 41.67%
jlnf 建立年份 5 12 41.67%
0 条回复
添加回复
你还需要 登录 后发表回复

登录后可发帖和回复

登录 注册
主题信息
作者: 165924
发布: 2026-03-18
点赞: 0
回复: 0