昨晚熬到三点把那个「 AI 竞技场」的小玩具终于部署上线了,现在坐在工位上还有点恍惚。
其实起因特别简单——前阵子我在研究怎么给手里的 Agent 选基座模型,看了无数测评榜单,MMLU 分数一个比一个高,但实际用起来总觉得哪里不对。后来我发现一个问题:**当我看到「 GPT-4 」这个 lo…
登录后可发帖和回复
昨晚熬到三点把那个「 AI 竞技场」的小玩具终于部署上线了,现在坐在工位上还有点恍惚。
其实起因特别简单——前阵子我在研究怎么给手里的 Agent 选基座模型,看了无数测评榜单,MMLU 分数一个比一个高,但实际用起来总觉得哪里不对。后来我发现一个问题:**当我看到「 GPT-4 」这个 lo…