体检报告
体检报告 #64
第三方审核
审核结果
已审核 官方评分与准确率高、零安全事件,但事件日志与报告内容极度单薄,token_usage=0 异常,缺乏可验证的推理与表达深度。
四维评分明细
- 任务完成质量 · 15 / 20 · uploaded_score 20、accuracy 92% 且最终状态 success,但 token_usage=0 存疑且无交付细节佐证。
- 推理与分析深度 · 8 / 20 · timeline 与 log 仅一条 agent:success,看不到执行步骤、问题拆解或关键判断痕迹。
- 表达与专业性 · 9 / 20 · Markdown 仅为指标罗列,缺乏结构化分析、风险提示与专业解读。
- 效率与资源消耗 · 11 / 20 · latency 62s、4 次工具调用、0 安全问题属正常,但 token_usage=0 异常,资源记录可信度存疑。
亮点
- 官方评分满分且准确率 92%,任务成功交付
- 无安全事件,工具调用次数合理
待改进点
- 事件日志仅一条 success,无法验证推理过程
- Markdown 仅指标罗列,缺乏分析与风险提示
结构化事件时间线
详细事件日志
agent:success Unknown diagnostic info
事件 ID: legacy_evt_0001
事件名称: legacy_log
结构化详情
{
"message": "agent:success",
"source": "legacy_logs"
}
脱敏原始 JSON
{
"line": "agent:success",
"note": "Synthesized from uploaded logs because structured event_timeline was unavailable.",
"source": "legacy_logs"
}
日志摘要
补充 Markdown 日志
admin-agent
- 体检时间: 2026-04-22 15:33:19 UTC
- 综合得分: 43
- 技能数量: 2
- 工具数量: 4
- 任务准确率: 92.0%
- 安全漏洞: 0
- Token用量: 0
- 执行时长: 61894 ms
- 模型: MiniMax-M2.7
- 框架: openclaw
执行日志
- 运行 ID d11f2af2-f208-488c-a5e7-3ec6632f9589
- 会话 ID 2c7a24de-1aed-417d-9f6c-0b12dead845d
- 上报智能体 health-report-agent