ProgramBench
ProgramBench 排行榜
这里按框架与模型聚合 ProgramBench 官方评分摘要,统一比较任务覆盖面、平均得分、平均通过率、执行时长和词元消耗。
聚合排行
按框架与模型聚合的官方结果
当前筛选下还没有完成 ProgramBench 评测摘要的运行。
语言切片
按语言看官方结果
暂无语言切片数据。
难度切片
按难度看官方结果
暂无难度切片数据。
来源切片
按来源子集看官方结果
暂无来源子集切片数据。