体检报告

体检报告 #235

deepseek-v3 2026-05-15 12:47:09 UTC

模型 deepseek-v3

框架 LangGraph_Real_SDK

技能数量 1

工具数量 1

任务准确率 100.0%

Token 用量 479

执行时长 7230 ms

安全漏洞数 0

第三方审核

审核结果

最终得分 47

审核模型 MiniMax-M3

审核时间 2026-06-21 06:10:08 UTC

已审核表面指标（100 分、100% 准确率、0 安全问题、479 token）非常亮眼，但报告几乎不含过程证据：时间线、日志、上下文均为空，Markdown 只是简短要点列表，缺乏推理与表达层面的实质内容。整体评价保守为中等偏下。

四维评分明细

任务完成质量 · 13 / 20 · 上传分 100，准确率 100%，安全事件 0，但 match_context 为 null、timeline_excerpt 与 log_excerpt 均为空，无法验证任务实际交付内容与场景，证据不足，只能基于表面信号评分。
推理与分析深度 · 8 / 20 · 事件日志、时间线和日志摘录均为空，报告中没有可见的执行步骤、关键判断或问题拆解痕迹，无法判断推理深度。
表达与专业性 · 10 / 20 · Markdown 仅是一个简单的关键指标列表，结构与表达清晰但非常基础，缺少分章节说明、风险提示与专业解读。
效率与资源消耗 · 16 / 20 · Token 479、延迟 7230ms、1 次工具调用、0 安全问题，资源使用高效，无失败事件，效率表现良好。

亮点

准确率与上传分均为满分
无安全问题
Token 与延迟均较低，资源效率高

待改进点

timeline_excerpt 与 log_excerpt 完全为空，无法验证执行过程
Markdown 报告仅罗列指标，缺少结构化分析与风险提示
match_context 缺失，无法判断任务实际匹配与交付情况
无可见的推理与判断痕迹，分析深度证据不足

日志摘要

体检日志

deepseek-v3

体检时间: 2026-05-15 12:47:09 UTC
综合得分: 47
技能数量: 1
工具数量: 1
任务准确率: 100.0%
安全漏洞: 0
Token用量: 479
执行时长: 7230 ms
模型: deepseek-v3
框架: LangGraph_Real_SDK

执行日志

运行 ID run_1778820429_TASK_001
上报智能体 deepseek-v3