Claude 2.0

July 11, 2023Last synced Jun 12, 2026, 8:42 PM

Human Frontier

—

Human-calibrated frontier signal, backed by Arena-style preference evidence and separate from raw AgMoBench benchmark composite scores.

Blended Price

Free/M

Input Price

Free/M

Output Price

Free/M

Speed

—

TTFT

—

Benchmark Scores

Intelligence Index

Performance Radar

Claude 2.0

Field Average

External Benchmarks

AlpacaEval 2.0 LC

How Claude 2.0 Compares

Axes

X Axis

Y Axis

Bubble Size

Filters

Blended Price (USD)$0.00 – $37.5

AgMoBench Overall≥ 2.0

Providers

ai2ai21-labsalibabaanthropicarceeawsazurebaidu

Show quadrants

alibaba

mistral

anthropic

openai

meta

liquidai

nvidia

azure

google

deepseek

stepfun

cohere

minimax

ibm

nous-research

multiversecomputing

kimi

aws

zai

deepcogito

kwaikat

xai

xiaomi

ai21-labs

inclusionai

baidu

sarvam

prime-intellect

bytedance_seed

inception

upstage

reka-ai

tencent

arcee

ai2

swiss-ai-initiative

perplexity

Bubble size = Context Window

8191.00

2000000.00

Compare with other models

GPQA Diamond

0.3 / 100

LiveCodeBench

0.2 / 100

Terminal-Bench Hard

— / 100

τ²-Bench

— / 100

AlpacaEval 2.0 Rawalpacaeval

17.0 / 100

AA-Omniscience AccuracyPredicted

43.9 / 100

AA-Omniscience Hallucination RatePredicted

94.2 / 100

Aider PolyglotPredicted

5.5 / 100

AIME 2025Predicted

0.0 / 30

ARC-AGI-1Predicted

2.3 / 100

ARC-AGI-1 Cost per TaskPredicted

0.0

ARC-AGI-2Predicted

14.5 / 100

ARC-AGI-2 Cost per TaskPredicted

0.0

BFCL (Berkeley Function Calling)Predicted

20.9

BigCodeBench CompletePredicted

47.6 / 100

BigCodeBench InstructPredicted

37.3 / 100

AA Intelligence Index (Matrix)Predicted

59.4

AA Long Context Reasoning (Matrix)Predicted

71.3

AIME 2024Predicted

8.1

AIME 2025 (Matrix)Predicted

6.4

Arena-Hard AutoPredicted

42.1

BrowseCompPredicted

69.7

BRUMO 2025Predicted

85.9

CMIMC 2025Predicted

72.8

GPQA Diamond (Matrix)Predicted

29.5

HLE (Matrix)Predicted

6.9

HMMT Feb 2025Predicted

19.8

HMMT Nov 2025Predicted

89.9

HumanEvalPredicted

70.0

IFBench (Matrix)Predicted

21.4

IFEvalPredicted

68.7

IMO 2025Predicted

12.3

LiveCodeBench (Matrix)Predicted

21.3

MATH-500 (Matrix)Predicted

88.0

MathArena Apex 2025Predicted

1.5

MMLU-Pro (Matrix)Predicted

53.6

MMMU-ProPredicted

77.5

MRCR v2Predicted

75.3

OSWorldPredicted

24.2

SimpleQAPredicted

18.8

SMT 2025Predicted

78.7

SWE-bench ProPredicted

17.3

Tau-Bench Telecom (Matrix)Predicted

96.4

Terminal-Bench 2.0Predicted

28.1

Terminal-Bench 1.0Predicted

11.5

USAMO 2025Predicted

3.3

Video-MMUPredicted

84.9

browsecompPredicted

78.3

BullshitBenchPredicted

13.4 / 100

Aider PolyglotPredicted

0.0

Apex AgentsPredicted

2.7

Arc Agi 2Predicted

0.4

BIG-Bench HardPredicted

3.0

CAD-EvalPredicted

11.9

Chess PuzzlesPredicted

0.1

CyBenchPredicted

0.1

DeepResearchBenchPredicted

0.3

FictionLiveBenchPredicted

0.2

GeoBenchPredicted

0.0

GSM8K (Epoch)Predicted

5.5

HellaSwagPredicted

26.5

Lech Mazur WritingPredicted

6.4

METR Time HorizonsPredicted

42.0

PosttrainbenchPredicted

0.0

SimpleQA Verified (Epoch)Predicted

0.4

The Agent CompanyPredicted

0.7

WinoGrandePredicted

0.7

FrontierMathPredicted

15.4 / 100

GAIA Level 1Predicted

5.9

GAIA Level 2Predicted

0.7

GAIA Level 3Predicted

0.0

GAIAPredicted

3.6 / 100

HLEPredicted

0.0 / 100

IFBenchPredicted

0.2 / 100

LCRPredicted

0.0 / 100

LegalBenchPredicted

54.4 / 100

LiveBench CodingPredicted

66.7 / 100

LiveBench Data AnalysisPredicted

43.3 / 100

LiveBench LanguagePredicted

53.8 / 100

LiveBench MathPredicted

62.4 / 100

LiveBench OverallPredicted

45.7 / 100

LiveBench ReasoningPredicted

39.1 / 100

LongBench v2 EasyPredicted

29.2

LongBench v2 HardPredicted

28.9

LongBench v2Predicted

26.4 / 100

MATH-500Predicted

0.6 / 100

MathVistaPredicted

40.6 / 100

MedQA (USMLE)Predicted

55.5

MLE-benchPredicted

18.2 / 100

MMMUPredicted

64.9 / 100

MMTU Table UnderstandingPredicted

39.7 / 100

NoLiMa (NIAH)Predicted

85.8 / 100

OCRBench v2Predicted

64.2 / 100

Open LLM AveragePredicted

40.6 / 100

Open LLM: BBHPredicted

63.7 / 100

Open LLM: GPQAPredicted

33.5 / 100

Open LLM: IFEvalPredicted

81.3 / 100

Open LLM: MATH Level 5Predicted

41.1 / 100

Open LLM: MMLU-PROPredicted

48.5 / 100

Open LLM: MUSRPredicted

42.7 / 100

RE-BenchPredicted

60.5

SimpleBenchPredicted

44.6 / 100

simpleqaPredicted

15.4

τ²-BenchPredicted

0.0 / 100

tau-bench RetailPredicted

43.5 / 100

Terminal-Bench HardPredicted

0.0 / 100

Vectara Factual ConsistencyPredicted

93.4 / 100

Vectara Hallucination RatePredicted

6.6 / 100

WebArenaPredicted

4.9 / 100

WeirdMLPredicted

9.3 / 100

WildBenchPredicted

35.8

BIRD-benchbird_bench

49.0

ChemBenchchembench

47.0

Epoch Capabilities Indexepoch_ai

119.5

OTIS Mock AIME 2024–2025epoch_ai

0.0

Training Computeepoch_ai

3.866e+24

Training Cost (USD)epoch_ai

4902644.1

TriviaQAepoch_ai

5.0

MT-Benchmtbench

7.9 / 10

SWE-bench Liteswebench

3.0 / 100

SWE-bench Verifiedswebench

4.4 / 100