GoForum › 🌐 V2EX

给大模型们做了一个奇怪的测试

165924 · 2026-03-18 21:47 · 0 次点赞 · 0 条回复

教务系统有个 API 会返回一大堆混合着英文和拼音缩写的字段，除去我自己也猜不出来是啥意思的一共 72 个。这些东西大模型应该训练不到，很多缩写人类都很难猜。

除了网页提问的两个模型，其余均是调用 API+最大思考深度，chatgpt 5.4 mini 思考陷入循环，所以没有结果。

PS：claude opus 烧了 3 块钱😠，gpt5.4xhigh 烧了 4 块钱😡，其余的都不到 1 块。

没有重复测试，纯图一乐，勿认真。

模型正确率

排名	模型	正确字段数	计分字段数	正确率
1	gemini-pro-网页	67	72	93.06%
2	chatgpt-5.4-xhigh	63	72	87.50%
3	claude-opus-4.6-xhigh	63	72	87.50%
4	gemini-3.1-pro-aistudio	63	72	87.50%
5	chatgpt-发散性思考-网页	60	72	83.33%
6	gemini-3-flash-aistudio	60	72	83.33%
7	gemini-3.1-flash-lite-aistudio	57	72	79.17%
8	glm-5-turbo	56	72	77.78%
9	deepseek v3.2	50	72	69.44%
10	qwen3.5-plus-thinking	50	72	69.44%
11	chatgpt-5.4-nano-xhigh	48	72	66.67%
12	grok-4.2-beta	47	72	65.28%

原字段	正确	正确模型数	模型总数	正确率
aqfzr	安全负责人	12	12	100.00%
cdjb	场地级别	12	12	100.00%
cjr	创建人	12	12	100.00%
cjsj	创建时间	12	12	100.00%
gly	管理员	12	12	100.00%
gnqid	功能区 ID	12	12	100.00%
isdel	是否删除	12	12	100.00%
isjk	是否监控	12	12	100.00%
jiaoshihao	教室号	12	12	100.00%
jsbq	教室标签	12	12	100.00%

原字段	正确	正确模型数	模型总数	正确率
sxpkzdbjs	顺序排课最大班级数	0	12	0.00%
kscddw	考试承担单位	1	12	8.33%
sxtip	摄像头 IP	2	12	16.67%
fjnr	附件内容	4	12	33.33%
gzpkyxj	规则排课优先级	4	12	33.33%
jkdwybs	监控点位标识	4	12	33.33%
jlsj	建立时间	4	12	33.33%
isbsks	是否笔试考试	5	12	41.67%
iskt	是否空调	5	12	41.67%
jlnf	建立年份	5	12	41.67%

0 条回复

添加回复

你还需要登录后发表回复

登录后可发帖和回复

登录注册

主题信息

作者: 165924

发布: 2026-03-18

点赞: 0

回复: 0