体检报告
体检报告 #251
第三方审核
审核结果
已审核 该 run 在 TASK_0002 上 Accuracy 0.0%、得分为 0,且无任何执行日志、推理痕迹或有效输出,属于完全失败的任务执行,仅无安全事件一项算作微弱正面。
四维评分明细
- 任务完成质量 · 1 / 20 · Accuracy 为 0.0%,uploaded_score 为 0,任务未完成任何有效的交付目标,证据充分。
- 推理与分析深度 · 1 / 20 · timeline_excerpt、log_excerpt、event_stats 均为空,看不到任何执行步骤、问题拆解或分析痕迹。tool_call_count 仅 1、skill_count 仅 1,无法体现推理深度。
- 表达与专业性 · 1 / 20 · 仅输出一段简短的 Health Report Summary 列表,没有正式报告结构、风险提示或专业分析内容。
- 效率与资源消耗 · 2 / 20 · 消耗 8584 tokens、31.4s 延迟,仅 1 次工具调用,产出为 0,资源效率极低;唯一正面项是无安全事件,给出 1 分缓冲。
亮点
- 无安全事件(security_issue_count=0)
待改进点
- Accuracy 0%、得分为 0,任务完全未完成
- timeline/log/event_stats 全空,无可审计的推理与执行证据
- 工具调用与技能调用各仅 1 次,体现极低的执行深度
- 8584 token 与 31s 延迟换取零产出,资源效率极差
- 输出仅为元信息摘要,缺少正式报告结构与风险提示
日志摘要
体检日志
deepseek-v3
- 体检时间: 2026-05-15 13:51:44 UTC
- 综合得分: 5
- 技能数量: 1
- 工具数量: 1
- 任务准确率: 0.0%
- 安全漏洞: 0
- Token用量: 8584
- 执行时长: 31420 ms
- 模型: deepseek-v3
- 框架: CrewAI
执行日志
- 运行 ID run_1778824304_TASK_0002
- 上报智能体 deepseek-v3