Gemma 4 31B (Reasoning)

April 2, 2026Last synced Jun 12, 2026, 8:42 PM

Human Frontier

82.1

Human-calibrated frontier signal, backed by Arena-style preference evidence and separate from raw AgMoBench benchmark composite scores.

Blended Price

Free/M

Input Price

Free/M

Output Price

Free/M

Speed

35 tok/s

TTFT

0.93s

Benchmark Scores

Intelligence Index

Performance Radar

Gemma 4 31B (Reasoning)

Field Average

External Benchmarks

AA-Omniscience Index

How Gemma 4 31B (Reasoning) Compares

Axes

X Axis

Y Axis

Bubble Size

Filters

Blended Price (USD)$0.00 – $37.5

AgMoBench Overall≥ 2.0

Providers

ai2ai21-labsalibabaanthropicarceeawsazurebaidu

Show quadrants

alibaba

mistral

anthropic

openai

meta

liquidai

nvidia

azure

google

deepseek

stepfun

cohere

minimax

ibm

nous-research

multiversecomputing

kimi

aws

zai

deepcogito

kwaikat

xai

xiaomi

ai21-labs

inclusionai

baidu

sarvam

prime-intellect

bytedance_seed

inception

upstage

reka-ai

tencent

arcee

ai2

swiss-ai-initiative

perplexity

Bubble size = Context Window

8191.00

2000000.00

Compare with other models

GPQA Diamond

0.9 / 100

LiveCodeBench

— / 100

Terminal-Bench Hard

0.4 / 100

τ²-Bench

0.6 / 100

AA-Omniscience AccuracyPredicted

41.6 / 100

AA-Omniscience Hallucination RatePredicted

96.2 / 100

Aider PolyglotPredicted

86.5 / 100

AIMEPredicted

0.9 / 30

AIME 2025Predicted

1.0 / 30

AlpacaEval 2.0 LCPredicted

30.3 / 100

AlpacaEval 2.0 RawPredicted

23.4 / 100

ARC-AGI-1Predicted

63.5 / 100

ARC-AGI-1 Cost per TaskPredicted

0.3

ARC-AGI-2Predicted

11.2 / 100

ARC-AGI-2 Cost per TaskPredicted

0.7

BFCL (Berkeley Function Calling)Predicted

60.1

BigCodeBench CompletePredicted

53.9 / 100

BigCodeBench InstructPredicted

43.7 / 100

AA Intelligence Index (Matrix)Predicted

67.2

AA Long Context Reasoning (Matrix)Predicted

73.6

AIME 2024Predicted

99.1

AIME 2025 (Matrix)Predicted

99.6

Arena-Hard AutoPredicted

90.0

BrowseCompPredicted

65.4

BRUMO 2025Predicted

97.0

CMIMC 2025Predicted

86.6

GPQA Diamond (Matrix)Predicted

91.2

HLE (Matrix)Predicted

29.5

HMMT Feb 2025Predicted

92.0

HMMT Nov 2025Predicted

91.3

HumanEvalPredicted

94.5

IFBench (Matrix)Predicted

63.4

IFEvalPredicted

92.7

IMO 2025Predicted

29.7

LiveCodeBench (Matrix)Predicted

86.6

MATH-500 (Matrix)Predicted

98.8

MathArena Apex 2025Predicted

2.0

MMLU-Pro (Matrix)Predicted

86.8

MMMU-ProPredicted

82.2

MRCR v2Predicted

78.4

OSWorldPredicted

43.9

SimpleQAPredicted

48.2

SMT 2025Predicted

89.0

SWE-bench ProPredicted

41.6

Tau-Bench Telecom (Matrix)Predicted

97.3

Terminal-Bench 2.0Predicted

35.3

Terminal-Bench 1.0Predicted

35.3

USAMO 2025Predicted

23.8

Video-MMUPredicted

86.8

browsecompPredicted

62.4

BullshitBenchPredicted

30.7 / 100

Aider PolyglotPredicted

0.1

Apex AgentsPredicted

2.4

Arc Agi 2Predicted

0.0

BIG-Bench HardPredicted

3.0

CAD-EvalPredicted

2.5

Chess PuzzlesPredicted

0.2

CyBenchPredicted

0.6

DeepResearchBenchPredicted

0.4

FictionLiveBenchPredicted

0.8

GeoBenchPredicted

0.0

GSM8K (Epoch)Predicted

2.9

HellaSwagPredicted

0.0

Lech Mazur WritingPredicted

8.6

METR Time HorizonsPredicted

3.5

OTIS Mock AIME 2024–2025Predicted

1.6

PosttrainbenchPredicted

0.0

SimpleQA Verified (Epoch)Predicted

0.4

The Agent CompanyPredicted

2.7

TriviaQAPredicted

11.5

WinoGrandePredicted

0.9

FrontierMathPredicted

20.3 / 100

GAIA Level 1Predicted

88.4

GAIA Level 2Predicted

85.0

GAIA Level 3Predicted

97.4

GAIAPredicted

77.7 / 100

LegalBenchPredicted

89.7 / 100

LiveCodeBenchPredicted

0.8 / 100

LongBench v2 EasyPredicted

67.2

LongBench v2 HardPredicted

51.2

LongBench v2Predicted

46.5 / 100

MATH-500Predicted

1.0 / 100

MathVistaPredicted

72.2 / 100

MedQA (USMLE)Predicted

96.3

MLE-benchPredicted

44.3 / 100

MMLU ProPredicted

0.9 / 100

MMMUPredicted

85.1 / 100

MMTU Table UnderstandingPredicted

68.0 / 100

MT-BenchPredicted

7.9 / 10

NoLiMa (NIAH)Predicted

95.3 / 100

OCRBench v2Predicted

87.4 / 100

Open LLM AveragePredicted

19.8 / 100

Open LLM: BBHPredicted

50.3 / 100

Open LLM: GPQAPredicted

30.3 / 100

Open LLM: IFEvalPredicted

36.0 / 100

Open LLM: MATH Level 5Predicted

9.8 / 100

Open LLM: MMLU-PROPredicted

34.1 / 100

Open LLM: MUSRPredicted

41.7 / 100

RE-BenchPredicted

93.3

SimpleBenchPredicted

54.6 / 100

simpleqaPredicted

47.9

SWE-bench LitePredicted

60.2 / 100

SWE-bench VerifiedPredicted

76.9 / 100

tau-bench RetailPredicted

84.0 / 100

Vectara Factual ConsistencyPredicted

89.9 / 100

Vectara Hallucination RatePredicted

10.1 / 100

WebArenaPredicted

2.4 / 100

WeirdMLPredicted

66.2 / 100

WildBenchPredicted

47.8

Arena ELO: Codingchatbot_arena

1377.0

Arena ELO: Creative Writingchatbot_arena

1423.0

arena_elo_documentchatbot_arena

1424.0

Chatbot Arena ELOchatbot_arena

1451.0

arena_elo_visionchatbot_arena

1252.0

LiveBench Codinglivebench

60.3 / 100

LiveBench Data Analysislivebench

58.8 / 100

LiveBench Languagelivebench

71.3 / 100

LiveBench Mathlivebench

73.9 / 100

LiveBench Overalllivebench

61.6 / 100

LiveBench Reasoninglivebench

59.4 / 100