SkillsBench v1.1

SkillsBench 排行榜

这里按框架、模型与技能模式聚合官方 verifier 结果,同时展示 `with-skill` 与 `no-skill` 的 skill-lift 对照。

聚合行 0
已验证报告 0
技能增益对照 0
技能模式 全部模式

聚合排行

按框架、模型、技能模式聚合的官方结果

当前筛选下还没有完成官方评分的 SkillsBench 运行。

Skill Lift

`with-skill` 对 `no-skill` 的增益对照

需要同一模型同时具备 `with-skill` 与 `no-skill` 官方评分结果后,才会显示增益对照。

难度切片

按难度看官方结果

暂无难度切片数据。

分类切片

按分类看官方结果

暂无分类切片数据。