GoForum🌐 V2EX

Qwen3.5-Sonnet-9B: 专为 Coding Agent 蒸馏的 9B 小模型

ytgui · 2026-05-16 15:25 · 0 次点赞 · 4 条回复

最近炼了一个小模型放出来给大家玩,专门针对 OpenCode (还有 Claude Code )做了蒸馏。

FP8 量化后权重大概 13GB ,单张 24GB 显卡用 vLLM 就能跑 200K 上下文。

核心目标:claude 的风格,降低 tool call 的失败率,让 agent 能跑更长的连续任务。

蹲一下:Bug 反馈、奇怪的 trace 、改进建议都欢迎 🙏

🤗 HF: Qwen3.5-Sonnet-9B

4 条回复
zhang666 · 2026-05-16 15:30
#1

22G 可以用吗?

kuhung · 2026-05-16 15:45
#2

好奇有做效果测试和对比吗 另外有考虑提供更近一步的量化和苹果环境的权重嘛

ytgui · 2026-05-16 15:50
#3

@zhang666 试了下,19.5GB 显存可以跑 100K 的 context 长度

ytgui · 2026-05-16 15:50
#4

@kuhung 还在跑,ifeval (指令跟随) 和 gpqa_diamond (通用知识)没有弱化。我提供的权重是 hugging face 的标准 fp8 ,不是很熟悉苹果权重,可能会做~

添加回复
你还需要 登录 后发表回复

登录后可发帖和回复

登录 注册
主题信息
作者: ytgui
发布: 2026-05-16
点赞: 0
回复: 0