Benchmark Hub

Featured Benchmarks

VibeCode Arena

VibeCode Arena

Pokemon Gym

Pokemon Gym

JFK Arena

JFK Arena

PaperBench

PaperBench

WebArena

WebArena

Carnegie Mellon University

SWE-Bench

SWE-Bench

RareBench

RareBench

Bird-SQL

Bird-SQL

AlibabaResearch

MedQA-CS

MedQA-CS

WebCanvas

WebCanvas

MMLU-Pro

MMLU-Pro

All Benchmarks

Hub
Contact

agent
code
commonsense
embedding
general
knowledge
language
long-context
multimodal
performance
reasoning
retrieval
safety
tool-calling
vision

All Benchmarks

16

kirk111Webcanvas

Updated a year ago

Updated a year ago

Benchflowmedqa-cs

Updated a year ago

shireenchandMLE-Bench

Updated a year ago

Updated a year ago

BenchflowMMLU-PRO

Updated a year ago

BenchflowSwebench

Updated a year ago

BenchflowRarebench

Updated a year ago

BenchflowWebcanvas

Updated a year ago

Benchflow2BF-Webarena

Updated a year ago

BenchflowBF-Webarena2

Updated a year ago

lilaobaBF-Webarena

Updated a year ago

Benchflowwebarena

Updated a year ago

BenchFlowMMLU-Pro

Updated a year ago

Updated a year ago

Updated a year ago