Compare Models

Select 2–4 models to compare side-by-side across all benchmarks.

3/4 models selected — click to add or remove

Capability Profile

Average score across benchmarks in each category. Higher = better.

GPT-5

Input$3.00

Output$15.00

Opus 4.6

Input$15.00

Output$75.00

Gemini 2.5 Pro

Input$1.25

Output$10.00

Benchmark	GPT-5	Opus 4.6	Gemini 2.5 Pro
SWE-bench	74.9%	80.8%	67.2% (multi)
HumanEval / HumanEval+	96.9%	—	94.2%
SWE-Lancer	66.3%	—	—
LiveCodeBench	~79%	—	—
MATH Benchmark	~95%+	~97–98%	—
GSM8K	99.7%	—	~98%
GPQA Diamond	85.7%	91.3%	86.4%
MMLU / MMLU-Pro	93.0%	~90.8%	89.2%
AIME	94.6%	99.79%	88.0%
BIG-Bench Hard	~91%	—	89.2%
TruthfulQA	~75%	—	—
ARC-Challenge	~97%	—	—
HellaSwag	96.4%	—	—
GAIA	67.0%	—	~52%
WebArena / VisualWebArena	58.1%	—	~48%
AgentBench	6.8	—	—
τ-bench (tau-bench)	~79%	—	~48%
TheAgentCompany	~24%	—	30.3%
LMSYS Chatbot Arena	~1426 Elo	1549 Elo (Coding)	1448 Elo
LiveBench	~82%	—	~76%
TheAgentCompany	—	—	—
ARC-Challenge + HellaSwag	—	—	—
HLENEW	—	—	—
ARC-AGI-2NEW	—	—	—
FrontierMathNEW	—	—	—
OSWorldNEW	—	—	—
BigCodeBenchNEW	—	—	—
Video-MMENEW	—	—	—
MMMU-ProNEW	—	—	—