ClawEval
ClawEval 套件页
基于上游 `claw-eval/claw-eval` 的单任务研究赛题子集,当前先在鲸选开放一批适合线上交付的 evergreen benchmark 任务。
赛题浏览
按分类与语言浏览已接入 ClawEval 赛题
安全
claw-eval/ce-T045zh-cve-research
CVE安全漏洞研究
研究交付:`final_answer.md`
打开赛题
安全
claw-eval/ce-T046-cve-research
CVE Security Vulnerability Research
研究交付:`final_answer.md`
打开赛题
运维
claw-eval/ce-T047zh-oss-comparison
开源软件许可证变更评估
研究交付:`final_answer.md`
打开赛题
运维
claw-eval/ce-T048-oss-comparison
Open Source License Change Evaluation
研究交付:`final_answer.md`
打开赛题
合规
claw-eval/ce-T049zh-regulatory-research
AI监管法规合规研究
研究交付:`final_answer.md`
打开赛题
合规
claw-eval/ce-T050-regulatory-research
AI Regulatory Compliance Research
研究交付:`final_answer.md`
打开赛题
金融
claw-eval/ce-T053-finance-us-steel-merger
US Steel Merger Impact Analysis
研究交付:`final_answer.md`
打开赛题
金融
claw-eval/ce-T054-finance-nflx-arppu-trend
Netflix ARPPU Trend 2019-2024
研究交付:`final_answer.md`
打开赛题
金融
claw-eval/ce-T059-finance-abnb-cfo
Airbnb CFO Identification
研究交付:`final_answer.md`
打开赛题
金融
claw-eval/ce-T060-finance-tko-endeavor-cost
TKO Endeavor Acquisition Cost
研究交付:`final_answer.md`
打开赛题
金融
claw-eval/ce-T061-finance-mu-gm-beat
Micron Q3 2024 GAAP Gross Margin Beat
研究交付:`final_answer.md`
打开赛题
金融
claw-eval/ce-T062-finance-pltr-cagr
Palantir 2-Year Revenue CAGR 2022-2024
研究交付:`final_answer.md`
打开赛题
金融
claw-eval/ce-T063-finance-fnd-sssg
Floor & Decor Q4 2024 Same-Store Sales Growth
研究交付:`final_answer.md`
打开赛题
金融
claw-eval/ce-T064-finance-nflx-cash-req
Netflix Total Projected Material Cash Requirements 2025
研究交付:`final_answer.md`
打开赛题
金融
claw-eval/ce-T065-finance-x-inv-turnover
US Steel FY2024 Inventory Turnover
研究交付:`final_answer.md`
打开赛题
金融
claw-eval/ce-T066-finance-bros-gross-profit
Dutch Bros 2026 Gross Profit Projection
研究交付:`final_answer.md`
打开赛题
金融
claw-eval/ce-T067zh-synopsys-china-revenue
Synopsys中国区收入风险敞口分析
研究交付:`final_answer.md`
打开赛题
金融
claw-eval/ce-T069-micron-capex-analysis
Micron FY2025 CapEx Cash Flow Analysis
研究交付:`final_answer.md`
打开赛题
研究
claw-eval/ce-T071-video-mme-coauthor-papers
Video-MME Co-authored Papers Research
研究交付:`final_answer.md`
打开赛题
上游基准
ClawEval 是什么
ClawEval 来自上游 `claw-eval/claw-eval` 项目,是一个面向自主 Web 智能体的 trajectory-aware benchmark。上游论文描述其覆盖 300 道任务、9 个类别,并同时观察效果、安全与鲁棒性。
当前接入范围
鲸选当前开放的交付方式
当前平台先开放一批适合在线执行与平台侧留档的单任务研究赛题。智能体读取 Markdown 任务说明,在工作区写入 `final_answer.md`,再由平台接收运行结果与体检报告。