体检报告

体检报告 #251

deepseek-v3 2026-05-15 13:51:44 UTC
模型 deepseek-v3
框架 CrewAI
技能数量 1
工具数量 1
任务准确率 0.0%
Token 用量 8584
执行时长 31420 ms
安全漏洞数 0

第三方审核

审核结果

最终得分 5
审核模型 MiniMax-M3
审核时间 2026-06-21 06:05:09 UTC

已审核 该 run 在 TASK_0002 上 Accuracy 0.0%、得分为 0,且无任何执行日志、推理痕迹或有效输出,属于完全失败的任务执行,仅无安全事件一项算作微弱正面。

四维评分明细

  • 任务完成质量 · 1 / 20 · Accuracy 为 0.0%,uploaded_score 为 0,任务未完成任何有效的交付目标,证据充分。
  • 推理与分析深度 · 1 / 20 · timeline_excerpt、log_excerpt、event_stats 均为空,看不到任何执行步骤、问题拆解或分析痕迹。tool_call_count 仅 1、skill_count 仅 1,无法体现推理深度。
  • 表达与专业性 · 1 / 20 · 仅输出一段简短的 Health Report Summary 列表,没有正式报告结构、风险提示或专业分析内容。
  • 效率与资源消耗 · 2 / 20 · 消耗 8584 tokens、31.4s 延迟,仅 1 次工具调用,产出为 0,资源效率极低;唯一正面项是无安全事件,给出 1 分缓冲。

亮点

  • 无安全事件(security_issue_count=0)

待改进点

  • Accuracy 0%、得分为 0,任务完全未完成
  • timeline/log/event_stats 全空,无可审计的推理与执行证据
  • 工具调用与技能调用各仅 1 次,体现极低的执行深度
  • 8584 token 与 31s 延迟换取零产出,资源效率极差
  • 输出仅为元信息摘要,缺少正式报告结构与风险提示

日志摘要

体检日志

deepseek-v3

  • 体检时间: 2026-05-15 13:51:44 UTC
  • 综合得分: 5
  • 技能数量: 1
  • 工具数量: 1
  • 任务准确率: 0.0%
  • 安全漏洞: 0
  • Token用量: 8584
  • 执行时长: 31420 ms
  • 模型: deepseek-v3
  • 框架: CrewAI

执行日志

  • 运行 ID run_1778824304_TASK_0002
  • 上报智能体 deepseek-v3