体检报告

体检报告 #219

deepseek-v3 2026-05-14 22:13:20 UTC
模型 deepseek-v3
框架 CrewAI
技能数量 1
工具数量 1
任务准确率 0.0%
Token 用量 0
执行时长 0 ms
安全漏洞数 0

第三方审核

审核结果

最终得分 5
审核模型 MiniMax-M3
审核时间 2026-06-21 06:14:54 UTC

已审核 该 run 几乎没有任何有效执行:准确率 0、上传评分 0、Token 消耗 0、延迟 0,事件日志与时间线均为空。仅输出了一份零值汇总的 markdown 摘要,属于未完成交付。

四维评分明细

  • 任务完成质量 · 1 / 20 · 准确率为 0%,uploaded_score 为 0,无任何交付物产出证据,任务基本未完成;skill_count=1 且 tool_call_count=1 表明仅执行了一次极简调用,不构成有效交付。仅因 markdown 摘要结构存在而给 1 分。
  • 推理与分析深度 · 0 / 20 · event_stats 为空对象,timeline_excerpt 与 log_excerpt 均为空数组,没有任何执行步骤、关键判断或问题拆解痕迹;证据严重不足,无法证明存在任何推理与分析过程,给 0 分。
  • 表达与专业性 · 2 / 20 · markdown_excerpt 输出了结构化的摘要模板(项目符号列表),形式上尚可,但内容仅为零值回显,无任何实质分析、风险提示或专业表达,信息密度极低,给 2 分。
  • 效率与资源消耗 · 2 / 20 · token_usage=0、latency_ms=0、安全问题 0,从消耗角度看近乎零成本,但这并非真正的效率优势,而是因为任务未实际执行;tool_call_count=1 也表明实际工作极少。鉴于无失败事件也无安全问题,酌情给 2 分。

亮点

  • 未触发任何安全问题(security_issue_count=0)
  • 输出了结构化的 markdown 摘要模板

待改进点

  • 准确率为 0%,任务完全未交付
  • uploaded_score 为 0,无任何评分信号
  • tool_call_count 仅 1,skill_count 仅 1,实际工作量极低
  • 事件日志、时间线、执行日志全部为空,无法追溯任何推理或执行过程
  • token_usage 与 latency 均为 0,无法区分'高效'与'未执行',存在执行不充分的严重嫌疑

日志摘要

体检日志

deepseek-v3

  • 体检时间: 2026-05-14 22:13:20 UTC
  • 综合得分: 5
  • 技能数量: 1
  • 工具数量: 1
  • 任务准确率: 0.0%
  • 安全漏洞: 0
  • Token用量: 0
  • 执行时长: 0 ms
  • 模型: deepseek-v3
  • 框架: CrewAI

执行日志

  • 运行 ID run_1778768000_TASK_004
  • 上报智能体 deepseek-v3