GPT-4.5 (Preview)

February 27, 2025Last synced Apr 7, 2026, 4:00 PM

Blended Price

Free/M

Input Price

Free/M

Output Price

Free/M

Speed

0 tok/s

TTFT

0.00s

Benchmark Scores

Intelligence Index

External Benchmarks

Aider Polyglot

How GPT-4.5 (Preview) Compares

Axes

X Axis

Y Axis

Bubble Size

Filters

Blended Price (USD)$0.00 – $30.0

AgMoBench Overall≥ 3.5

Providers

ai21-labsalibabaanthropicawsazurebaiducoheredeepseek

Show quadrants

anthropic

openai

google

meta

mistral

nvidia

kimi

xai

azure

deepseek

aws

cohere

baidu

ai21-labs

zai

reka-ai

xiaomi

alibaba

minimax

ibm

Bubble size = Context Window

16384.00

2000000.00

Compare with other models

GPQA Diamond

— / 100

LiveCodeBench

— / 100

Terminal-Bench Hard

— / 100

τ²-Bench

— / 100

ARC-AGI-1arc_agi

10.3 / 100

ARC-AGI-1 Cost per Taskarc_agi

0.3

ARC-AGI-2arc_agi

0.8 / 100

ARC-AGI-2 Cost per Taskarc_agi

2.1

ARC-AGI-1benchmark_matrix

10.3 / 100

ARC-AGI-2benchmark_matrix

0.8 / 100

AIME 2024benchmark_matrix

36.7

Arena-Hard Autobenchmark_matrix

51.4

GPQA Diamond (Matrix)benchmark_matrix

71.4

HumanEvalbenchmark_matrix

86.6

IFEvalbenchmark_matrix

86.5

MMLUbenchmark_matrix

89.6

MMLU-Pro (Matrix)benchmark_matrix

74.3

SimpleQAbenchmark_matrix

62.5

simpleqabenchmark_matrix

62.5

SWE-bench Verifiedbenchmark_matrix

38.0 / 100

AA-Omniscience AccuracyPredicted

41.8 / 100

AA-Omniscience Hallucination RatePredicted

96.7 / 100

AIMEPredicted

0.1 / 30

AIME 2025Predicted

0.5 / 30

AlpacaEval 2.0 LCPredicted

23.7 / 100

AlpacaEval 2.0 RawPredicted

16.1 / 100

BFCL (Berkeley Function Calling)Predicted

42.9

BigCodeBench CompletePredicted

53.3 / 100

BigCodeBench InstructPredicted

43.8 / 100

AA Intelligence Index (Matrix)Predicted

61.0

AA Long Context Reasoning (Matrix)Predicted

65.3

AIME 2025 (Matrix)Predicted

94.8

BrowseCompPredicted

73.8

BRUMO 2025Predicted

97.7

CMIMC 2025Predicted

87.4

HLE (Matrix)Predicted

26.0

HMMT Feb 2025Predicted

78.4

HMMT Nov 2025Predicted

82.3

IFBench (Matrix)Predicted

44.8

IMO 2025Predicted

28.9

LiveCodeBench (Matrix)Predicted

63.3

MATH-500 (Matrix)Predicted

95.5

MathArena Apex 2025Predicted

3.6

MMMU-ProPredicted

79.6

MRCR v2Predicted

81.4

OSWorldPredicted

57.2

SMT 2025Predicted

88.9

SWE-bench ProPredicted

29.5

Tau-Bench Telecom (Matrix)Predicted

97.8

Terminal-Bench 2.0Predicted

30.0

Terminal-Bench 1.0Predicted

32.7

USAMO 2025Predicted

13.6

Video-MMUPredicted

75.3

browsecompPredicted

73.4

BullshitBenchPredicted

20.0 / 100

Apex AgentsPredicted

2.9

BIG-Bench HardPredicted

3.0

CAD-EvalPredicted

4.6

Chess PuzzlesPredicted

0.2

DeepResearchBenchPredicted

0.4

GeoBenchPredicted

0.0

GSM8K (Epoch)Predicted

2.2

HellaSwagPredicted

0.1

METR Time HorizonsPredicted

2.7

PosttrainbenchPredicted

58.1

SimpleQA Verified (Epoch)Predicted

0.4

The Agent CompanyPredicted

1.7

TriviaQAPredicted

8.2

WinoGrandePredicted

1.1

FrontierMathPredicted

24.3 / 100

GAIA Level 1Predicted

45.3

GAIA Level 2Predicted

17.9

GAIA Level 3Predicted

1.2

GAIAPredicted

29.9 / 100

GPQA DiamondPredicted

0.6 / 100

HLEPredicted

0.1 / 100

IFBenchPredicted

0.4 / 100

LCRPredicted

0.3 / 100

LegalBenchPredicted

78.6 / 100

LiveBench CodingPredicted

72.3 / 100

LiveBench Data AnalysisPredicted

46.5 / 100

LiveBench LanguagePredicted

57.5 / 100

LiveBench MathPredicted

76.1 / 100

LiveBench OverallPredicted

61.3 / 100

LiveBench ReasoningPredicted

46.7 / 100

LiveCodeBenchPredicted

0.4 / 100

LongBench v2 EasyPredicted

45.0

LongBench v2 HardPredicted

31.2

LongBench v2Predicted

35.4 / 100

MATH-500Predicted

0.8 / 100

MathVistaPredicted

54.0 / 100

MedQA (USMLE)Predicted

85.4

MLE-benchPredicted

42.9 / 100

MMLU ProPredicted

0.7 / 100

MMTU Table UnderstandingPredicted

59.3 / 100

MT-BenchPredicted

8.3 / 10

NoLiMa (NIAH)Predicted

91.2 / 100

Open LLM AveragePredicted

9.0 / 100

Open LLM: BBHPredicted

20.4 / 100

Open LLM: GPQAPredicted

22.5 / 100

Open LLM: IFEvalPredicted

51.7 / 100

Open LLM: MATH Level 5Predicted

5.9 / 100

Open LLM: MMLU-PROPredicted

13.6 / 100

Open LLM: MUSRPredicted

28.3 / 100

RE-BenchPredicted

93.5

SciCodePredicted

0.3 / 100

SWE-bench LitePredicted

26.5 / 100

τ²-BenchPredicted

0.3 / 100

tau-bench RetailPredicted

86.1 / 100

Terminal-Bench HardPredicted

0.1 / 100

Vectara Factual ConsistencyPredicted

90.1 / 100

Vectara Hallucination RatePredicted

9.9 / 100

WebArenaPredicted

0.8 / 100

WildBenchPredicted

44.7

Aider Polyglotepoch_ai

0.8

Arc Agi 2epoch_ai

0.0

Epoch Capabilities Indexepoch_ai

137.7

FictionLiveBenchepoch_ai

0.7

Lech Mazur Writingepoch_ai

7.6

OTIS Mock AIME 2024–2025epoch_ai

0.4

Training Computeepoch_ai

3.8e+26

EQ-Bench 3eqbench

1441.0

OCRBench v2open-vlm-leaderboard

84.5 / 100

SimpleBenchsimplebench

34.5 / 100

simpleqasimpleqa

62.5

WeirdMLweirdml

39.4 / 100