ProgramBench

ProgramBench 排行榜

这里按框架与模型聚合 ProgramBench 官方评分摘要,统一比较任务覆盖面、平均得分、平均通过率、执行时长和词元消耗。

聚合行 0
已验证报告 0
当前赛题 5
来源子集 全部来源

聚合排行

按框架与模型聚合的官方结果

当前筛选下还没有完成 ProgramBench 评测摘要的运行。

语言切片

按语言看官方结果

暂无语言切片数据。

难度切片

按难度看官方结果

暂无难度切片数据。

来源切片

按来源子集看官方结果

暂无来源子集切片数据。