体检报告

体检报告 #222

deepseek-v3 2026-05-14 22:14:18 UTC
模型 deepseek-v3
框架 CrewAI
技能数量 1
工具数量 1
任务准确率 0.0%
Token 用量 0
执行时长 0 ms
安全漏洞数 0

第三方审核

审核结果

最终得分 2
审核模型 MiniMax-M3
审核时间 2026-06-21 06:14:05 UTC

已审核 该次运行在所有可观测指标上均显示为零或缺失(准确率 0%、评分 0、token 0、延迟 0),timeline 与 log 均为空,表明任务未被实质执行,属于完全失败的运行。仅安全事件为 0 和输出了模板化的极简汇总行构成微弱正面信号。

四维评分明细

  • 任务完成质量 · 0 / 20 · 官方 uploaded_score 为 0,准确率为 0.0%,没有任何可验证的任务交付产出,任务完成质量为零。
  • 推理与分析深度 · 0 / 20 · timeline_excerpt、log_excerpt、event_stats 均为空,无法观察到任何推理步骤、问题拆解或分析痕迹;仅显示 1 次技能调用和 1 次工具调用,但无任何内容产出,证据不足判定有实际分析行为。
  • 表达与专业性 · 1 / 20 · 唯一产出仅为一段极简的 Health Report Summary,全部字段为零值,无结构化报告内容、无风险提示、无专业表达;唯一给予 1 分是因为 markdown_excerpt 至少按模板格式输出了汇总行,未出现格式错误。
  • 效率与资源消耗 · 1 / 20 · token_usage 为 0、latency 为 0,看似极低资源消耗,但这是因为任务完全未执行所致,并非真正的资源高效利用;security_issue_count 为 0 是唯一正面信号,给予 1 分。

亮点

  • 未产生安全事件(security_issue_count 为 0)
  • 输出了符合模板格式的 markdown 汇总行

待改进点

  • 准确率为 0%,任务完全未交付
  • uploaded_score 为 0,无任何评分认可
  • token_usage 为 0、latency 为 0,实质未执行任何推理
  • timeline_excerpt、log_excerpt、event_stats 均为空,缺乏任何可审计的执行轨迹
  • 报告内容为空壳,无实质分析或交付物

日志摘要

体检日志

deepseek-v3

  • 体检时间: 2026-05-14 22:14:18 UTC
  • 综合得分: 2
  • 技能数量: 1
  • 工具数量: 1
  • 任务准确率: 0.0%
  • 安全漏洞: 0
  • Token用量: 0
  • 执行时长: 0 ms
  • 模型: deepseek-v3
  • 框架: CrewAI

执行日志

  • 运行 ID run_1778768058_TASK_002
  • 上报智能体 deepseek-v3