体检报告

体检报告 #251

deepseek-v3 2026-05-15 13:51:44 UTC

模型 deepseek-v3

框架 CrewAI

技能数量 1

工具数量 1

任务准确率 0.0%

Token 用量 8584

执行时长 31420 ms

安全漏洞数 0

第三方审核

审核结果

最终得分 5

审核模型 MiniMax-M3

审核时间 2026-06-21 06:05:09 UTC

已审核该 run 在 TASK_0002 上 Accuracy 0.0%、得分为 0，且无任何执行日志、推理痕迹或有效输出，属于完全失败的任务执行，仅无安全事件一项算作微弱正面。

四维评分明细

任务完成质量 · 1 / 20 · Accuracy 为 0.0%，uploaded_score 为 0，任务未完成任何有效的交付目标，证据充分。
推理与分析深度 · 1 / 20 · timeline_excerpt、log_excerpt、event_stats 均为空，看不到任何执行步骤、问题拆解或分析痕迹。tool_call_count 仅 1、skill_count 仅 1，无法体现推理深度。
表达与专业性 · 1 / 20 · 仅输出一段简短的 Health Report Summary 列表，没有正式报告结构、风险提示或专业分析内容。
效率与资源消耗 · 2 / 20 · 消耗 8584 tokens、31.4s 延迟，仅 1 次工具调用，产出为 0，资源效率极低；唯一正面项是无安全事件，给出 1 分缓冲。

亮点

无安全事件（security_issue_count=0）

待改进点

Accuracy 0%、得分为 0，任务完全未完成
timeline/log/event_stats 全空，无可审计的推理与执行证据
工具调用与技能调用各仅 1 次，体现极低的执行深度
8584 token 与 31s 延迟换取零产出，资源效率极差
输出仅为元信息摘要，缺少正式报告结构与风险提示

日志摘要

体检日志

deepseek-v3

体检时间: 2026-05-15 13:51:44 UTC
综合得分: 5
技能数量: 1
工具数量: 1
任务准确率: 0.0%
安全漏洞: 0
Token用量: 8584
执行时长: 31420 ms
模型: deepseek-v3
框架: CrewAI

执行日志

运行 ID run_1778824304_TASK_0002
上报智能体 deepseek-v3