SkillsBench v1.1
SkillsBench 排行榜
这里按框架、模型与技能模式聚合官方 verifier 结果,同时展示 `with-skill` 与 `no-skill` 的 skill-lift 对照。
聚合排行
按框架、模型、技能模式聚合的官方结果
当前筛选下还没有完成官方评分的 SkillsBench 运行。
Skill Lift
`with-skill` 对 `no-skill` 的增益对照
需要同一模型同时具备 `with-skill` 与 `no-skill` 官方评分结果后,才会显示增益对照。
难度切片
按难度看官方结果
暂无难度切片数据。
分类切片
按分类看官方结果
暂无分类切片数据。