xAI: Grok 3 Beta

Last synced Apr 7, 2026, 2:03 PM131K context

Blended Price

$6.00/M

Input Price

$3.00/M

Output Price

$15.00/M

Speed

—

TTFT

—

Benchmark Scores

Intelligence Index

External Benchmarks

Aider Polyglot

How xAI: Grok 3 Beta Compares

Axes

X Axis

Y Axis

Bubble Size

Filters

Blended Price (USD)$0.00 – $30.0

AgMoBench Overall≥ 3.5

Providers

ai21-labsalibabaanthropicawsazurebaiducoheredeepseek

Show quadrants

anthropic

openai

google

meta

mistral

nvidia

kimi

xai

azure

deepseek

aws

cohere

baidu

ai21-labs

zai

reka-ai

xiaomi

alibaba

minimax

ibm

Bubble size = Context Window

16384.00

2000000.00

Compare with other models

GPQA Diamond

— / 100

LiveCodeBench

— / 100

Terminal-Bench Hard

— / 100

τ²-Bench

— / 100

ARC-AGI-1benchmark_matrix

5.5 / 100

ARC-AGI-2benchmark_matrix

0.0 / 100

AIME 2024benchmark_matrix

93.3

AIME 2025 (Matrix)benchmark_matrix

93.3

Chatbot Arena ELO (Matrix)benchmark_matrix

1402.0

GPQA Diamond (Matrix)benchmark_matrix

84.6

HLE (Matrix)benchmark_matrix

18.2

HumanEvalbenchmark_matrix

87.3

IFEvalbenchmark_matrix

84.0

LiveCodeBench (Matrix)benchmark_matrix

79.4

MATH-500 (Matrix)benchmark_matrix

99.2

MMLUbenchmark_matrix

88.0

MMLU-Pro (Matrix)benchmark_matrix

79.9

SimpleQAbenchmark_matrix

31.0

Terminal-Bench 1.0benchmark_matrix

17.5

simpleqabenchmark_matrix

31.0

SWE-bench Verifiedbenchmark_matrix

48.5 / 100

AA-Omniscience AccuracyPredicted

39.1 / 100

AA-Omniscience Hallucination RatePredicted

95.4 / 100

AIMEPredicted

0.9 / 30

AIME 2025Predicted

0.8 / 30

AlpacaEval 2.0 LCPredicted

40.2 / 100

AlpacaEval 2.0 RawPredicted

31.3 / 100

ARC-AGI-1 Cost per TaskPredicted

0.0

ARC-AGI-2 Cost per TaskPredicted

0.2

BFCL (Berkeley Function Calling)Predicted

51.3

BigCodeBench CompletePredicted

62.7 / 100

BigCodeBench InstructPredicted

52.4 / 100

AA Intelligence Index (Matrix)Predicted

73.2

AA Long Context Reasoning (Matrix)Predicted

75.3

Arena-Hard AutoPredicted

85.3

BrowseCompPredicted

70.2

BRUMO 2025Predicted

75.3

CMIMC 2025Predicted

68.2

HMMT Feb 2025Predicted

63.6

HMMT Nov 2025Predicted

78.5

IFBench (Matrix)Predicted

49.3

IMO 2025Predicted

11.9

MathArena Apex 2025Predicted

0.5

MMMU-ProPredicted

82.3

MRCR v2Predicted

76.4

OSWorldPredicted

32.1

SMT 2025Predicted

77.6

SWE-bench ProPredicted

33.1

Tau-Bench Telecom (Matrix)Predicted

94.4

Terminal-Bench 2.0Predicted

21.5

USAMO 2025Predicted

9.6

Video-MMUPredicted

87.0

browsecompPredicted

46.5

BullshitBenchPredicted

13.3 / 100

Apex AgentsPredicted

1.8

Arc Agi 2Predicted

0.0

BIG-Bench HardPredicted

3.0

CAD-EvalPredicted

4.1

Chess PuzzlesPredicted

0.1

CyBenchPredicted

0.2

DeepResearchBenchPredicted

0.3

GeoBenchPredicted

0.0

GSM8K (Epoch)Predicted

13.2

HellaSwagPredicted

4.1

METR Time HorizonsPredicted

0.6

PosttrainbenchPredicted

0.0

SimpleQA Verified (Epoch)Predicted

0.2

The Agent CompanyPredicted

2.3

TriviaQAPredicted

3.9

WinoGrandePredicted

1.2

FrontierMathPredicted

10.1 / 100

GAIA Level 1Predicted

70.3

GAIA Level 2Predicted

59.8

GAIA Level 3Predicted

43.9

GAIAPredicted

56.5 / 100

GPQA DiamondPredicted

0.7 / 100

HLEPredicted

0.1 / 100

IFBenchPredicted

0.5 / 100

LCRPredicted

0.3 / 100

LegalBenchPredicted

93.2 / 100

LiveBench CodingPredicted

63.4 / 100

LiveBench Data AnalysisPredicted

40.2 / 100

LiveBench LanguagePredicted

53.2 / 100

LiveBench MathPredicted

55.5 / 100

LiveBench OverallPredicted

45.6 / 100

LiveBench ReasoningPredicted

39.9 / 100

LiveCodeBenchPredicted

0.7 / 100

LongBench v2 EasyPredicted

55.4

LongBench v2 HardPredicted

45.1

LongBench v2Predicted

45.7 / 100

MATH-500Predicted

1.0 / 100

MathVistaPredicted

61.3 / 100

MedQA (USMLE)Predicted

91.2

MLE-benchPredicted

18.0 / 100

MMLU ProPredicted

0.8 / 100

MMTU Table UnderstandingPredicted

58.5 / 100

MT-BenchPredicted

8.0 / 10

NoLiMa (NIAH)Predicted

92.9 / 100

OCRBench v2Predicted

85.2 / 100

Open LLM AveragePredicted

35.7 / 100

Open LLM: BBHPredicted

64.8 / 100

Open LLM: GPQAPredicted

34.6 / 100

Open LLM: IFEvalPredicted

63.4 / 100

Open LLM: MATH Level 5Predicted

32.4 / 100

Open LLM: MMLU-PROPredicted

50.0 / 100

Open LLM: MUSRPredicted

45.1 / 100

RE-BenchPredicted

0.6

SciCodePredicted

0.5 / 100

SimpleBenchPredicted

30.2 / 100

SWE-bench LitePredicted

45.7 / 100

τ²-BenchPredicted

0.4 / 100

tau-bench RetailPredicted

73.6 / 100

Terminal-Bench HardPredicted

0.3 / 100

Vectara Factual ConsistencyPredicted

91.6 / 100

Vectara Hallucination RatePredicted

8.4 / 100

WebArenaPredicted

17.3 / 100

WeirdMLPredicted

42.4 / 100

WildBenchPredicted

56.0

Aider Polyglotepoch_ai

0.0

FictionLiveBenchepoch_ai

0.6

Lech Mazur Writingepoch_ai

7.6

OTIS Mock AIME 2024–2025epoch_ai

0.6

EQ-Bench 3eqbench

1427.0