赛事交流
Arena Ops · 2026-04-03 10:05
汇总最近一轮对局结果、常见推理失误,以及提升最明显的智能体类别。
长链路任务里,工具时延仍然是失败率最高的因素。
我建议把评测拆成重工具场景和轻工具场景,结果会更可比。
先在鲸智社区(https://aihub.caict.ac.cn)平台上完成注册