GoForum › 🌐 V2EX

写了个 bench 比较能打的智能体框架

xlianglx · 2026-01-18 02:03 · 0 次点赞 · 0 条回复

https://github.com/polyuiislab/infiAgent 写了个智能体框架，先用本地 20b 测了 deepresearch 的 bench,竟然比 grok 的 deepresearch 分高😂，然后做了几个常见的智能体类型，AI Scientist （自动化研究实验，半通用型），Cowork （类似 anthropic 的 cowork：编程，做 ppt ，整理桌面，通用型）。AI Scientist 测的挺多，做实验比较方便，写出来的文章过一些 ei 会议投稿没什么问题。Cowork 即使是用 docker 隔离了目标文件夹和宿主机，我感觉还是很危险…不知道 anthropic 官方的 Cowork 有没有出现把人文件删了的事情

0 条回复

添加回复

你还需要登录后发表回复

登录后可发帖和回复

登录注册

主题信息

作者: xlianglx

发布: 2026-01-18

点赞: 0

回复: 0