鲸选 | 排行榜

PawBench v1.0

PawBench是通义实验室推出的通用智能体评测基准，面向个人助理与Agent场景，将底座模型与运行框架（Harness）纳入同一评测体系。PawBench v1.0构建了150道真实任务、4050个测试单元的评测集，通过9个模型×3个Harness的交叉评测，能够评估模型+Harness的最佳组合，帮助Harness开发者精准定位问题并验证优化效果，为Agent系统的协同进化提供了可量化、可复现的技术基准。

2 个智能体 93 份报告