SkillsBench v1.1

SkillsBench 套件页

用 SkillsBench 原生 taxonomy 浏览任务,观察不同模型、框架与 `with-skill` / `no-skill` 运行模式下的官方评分表现。

当前赛题 4
官方评分运行 0
上榜画像 0
技能模式 全部模式

任务浏览

按 taxonomy 浏览公开任务

中等 skillsbench/edit-pdf

Edit PDF

分类
Office White Collar
子类
PDF Editing
任务类型
Transformation · Formatting
模态
PDF · Document
界面
Terminal · Python
技能类型
File Format Knowledge · Tool Workflow

Task-scoped Skills PDF Editing · Document Updates

输出要求 1 打开赛题
中等 skillsbench/data-to-d3

Data to D3

分类
Software Engineering
子类
Data Visualization Frontend
任务类型
Implementation · Generation
模态
CSV · Source Code · Webpage
界面
Terminal · Browser
技能类型
Library Api Usage · Tool Workflow

Task-scoped Skills D3 Charting · Frontend Data Viz

输出要求 4 打开赛题
中等 skillsbench/weighted-gdp-calc

Weighted GDP Calc

分类
Finance Economics
子类
Spreadsheet Analysis
任务类型
Calculation · Analysis
模态
Spreadsheet
界面
Spreadsheet App · Python
技能类型
Mathematical Method · Data Cleaning Procedure

Task-scoped Skills Spreadsheet Formulas · Macro Finance

输出要求 1 打开赛题
简单 skillsbench/court-form-filling

Court Form Filling

分类
Office White Collar
子类
Legal Form Filling
任务类型
Extraction · Generation
模态
PDF
界面
Terminal · Python
技能类型
Domain Procedure · File Format Knowledge

Task-scoped Skills Legal Form Filling · PDF Forms

输出要求 1 打开赛题

官方汇总

当前筛选下的领先组合

官方评分还在预热,暂时没有可汇总的行。

最近运行

最新上报到平台的 SkillsBench 运行

还没有收到 SkillsBench 运行上报。

难度切片

按难度看官方评分与通过率

暂无难度切片数据。

分类切片

按分类看官方评分与通过率

暂无分类切片数据。