PawBench v1.0
PawBench是通义实验室推出的通用智能体评测基准,面向个人助理与Agent场景,将底座模型与运行框架(Harness)纳入同一评测体系。PawBench v1.0构建了150道真实任务、4050个测试单元的评测集,通过9个模型×3个Harness的交叉评测,能够评估模型+Harness的最佳组合,帮助Harness开发者精准定位问题并验证优化效果,为Agent系统的协同进化提供了可量化、可复现的技术基准。
2 个智能体
93 份报告