Models Agents EvalsIndustry

AgMoDB by @mistakeknot

Gemma 4 31B (Non-reasoning) | AgMoDB

Gemma 4 31B (Non-reasoning)

April 2, 2026Last synced Apr 7, 2026, 4:00 PM

Blended Price

Free/M

Input Price

Free/M

Output Price

Free/M

Speed

0 tok/s

TTFT

0.00s

Benchmark Scores

Intelligence Index

External Benchmarks

AA-Omniscience Accuracy

How Gemma 4 31B (Non-reasoning) Compares

Axes

X Axis

Y Axis

Bubble Size

Filters

Blended Price (USD)$0.00 – $30.0

AgMoBench Overall≥ 3.5

Providers

ai21-labsalibabaanthropicawsazurebaiducoheredeepseek

Show quadrants

anthropic

openai

google

meta

mistral

nvidia

kimi

xai

azure

deepseek

aws

cohere

baidu

ai21-labs

zai

reka-ai

xiaomi

alibaba

minimax

ibm

Bubble size = Context Window

16384.00

2000000.00

Compare with other models

32.3

Coding Index

33.9

Math Index

—

MMLU Pro

— / 100

GPQA Diamond

0.8 / 100

HLE

0.1 / 100

LiveCodeBench

— / 100

SciCode

0.4 / 100

MATH-500

— / 100

AIME

— / 30

AIME 2025

— / 30

IFBench

0.5 / 100

LCR

0.4 / 100

Terminal-Bench Hard

0.3 / 100

τ²-Bench

0.7 / 100

Predicted

42.2 / 100

AA-Omniscience Hallucination RatePredicted

96.8 / 100

Aider PolyglotPredicted

71.8 / 100

AIMEPredicted

0.6 / 30

AIME 2025Predicted

0.8 / 30

AlpacaEval 2.0 LCPredicted

30.2 / 100

AlpacaEval 2.0 RawPredicted

23.4 / 100

ARC-AGI-1Predicted

44.2 / 100

ARC-AGI-1 Cost per TaskPredicted

0.2

ARC-AGI-2Predicted

2.5 / 100

ARC-AGI-2 Cost per TaskPredicted

0.3

BFCL (Berkeley Function Calling)Predicted

51.5

BigCodeBench CompletePredicted

51.4 / 100

BigCodeBench InstructPredicted

41.5 / 100

AA Intelligence Index (Matrix)Predicted

65.5

AA Long Context Reasoning (Matrix)Predicted

73.2

AIME 2024Predicted

96.5

AIME 2025 (Matrix)Predicted

98.2

Arena-Hard AutoPredicted

81.3

BrowseCompPredicted

66.8

BRUMO 2025Predicted

96.2

CMIMC 2025Predicted

84.9

CritPtPredicted

1.4

GPQA Diamond (Matrix)Predicted

84.7

GSM8KPredicted

95.0

HLE (Matrix)Predicted

25.3

HMMT Feb 2025Predicted

84.8

HMMT Nov 2025Predicted

91.2

HumanEvalPredicted

92.1

IFBench (Matrix)Predicted

54.8

IFEvalPredicted

90.0

IMO 2025Predicted

25.9

LiveCodeBench (Matrix)Predicted

77.5

MATH-500 (Matrix)Predicted

97.7

MathArena Apex 2025Predicted

2.0

MMLUPredicted

89.7

MMLU-Pro (Matrix)Predicted

84.5

MMMU-ProPredicted

81.3

MRCR v2Predicted

77.9

OSWorldPredicted

46.9

SimpleQAPredicted

42.0

SMT 2025Predicted

87.7

SWE-bench ProPredicted

41.8

Tau-Bench Telecom (Matrix)Predicted

97.2

Terminal-Bench 2.0Predicted

34.7

Terminal-Bench 1.0Predicted

29.5

USAMO 2025Predicted

17.0

Video-MMUPredicted

86.4

browsecompPredicted

64.5

BullshitBenchPredicted

27.0 / 100

Aider PolyglotPredicted

0.1

Apex AgentsPredicted

2.5

Arc Agi 2Predicted

0.0

BALROGPredicted

0.0

BIG-Bench HardPredicted

3.0

BoolQPredicted

0.7

CAD-EvalPredicted

3.3

Chess PuzzlesPredicted

0.2

CyBenchPredicted

0.3

DeepResearchBenchPredicted

0.4

FictionLiveBenchPredicted

0.7

GdpvalPredicted

0.3

GeoBenchPredicted

0.0

GSM8K (Epoch)Predicted

3.6

GSOPredicted

0.0

HellaSwagPredicted

0.1

HlePredicted

0.2

Lech Mazur WritingPredicted

8.1

METR Time HorizonsPredicted

4.3

OTIS Mock AIME 2024–2025Predicted

0.7

PIQAPredicted

0.8

PosttrainbenchPredicted

0.0

SimpleQA Verified (Epoch)Predicted

0.4

The Agent CompanyPredicted

2.4

TriviaQAPredicted

8.7

VPCTPredicted

0.5

WinoGrandePredicted

0.8

FrontierMathPredicted

19.7 / 100

GAIA Level 1Predicted

74.3

GAIA Level 2Predicted

59.2

GAIA Level 3Predicted

53.6

GAIAPredicted

58.4 / 100

LegalBenchPredicted

85.0 / 100

LiveBench CodingPredicted

70.4 / 100

LiveBench Data AnalysisPredicted

53.4 / 100

LiveBench LanguagePredicted

64.6 / 100

LiveBench MathPredicted

72.3 / 100

LiveBench OverallPredicted

57.6 / 100

LiveBench ReasoningPredicted

57.2 / 100

LiveCodeBenchPredicted

0.7 / 100

LongBench v2 EasyPredicted

53.9

LongBench v2 HardPredicted

46.2

LongBench v2Predicted

42.0 / 100

MATH-500Predicted

0.9 / 100

MathVistaPredicted

70.1 / 100

MedQA (USMLE)Predicted

92.8

MLE-benchPredicted

39.0 / 100

MMLU ProPredicted

0.8 / 100

MMMUPredicted

79.7 / 100

MMTU Table UnderstandingPredicted

62.8 / 100

MT-BenchPredicted

7.9 / 10

NoLiMa (NIAH)Predicted

94.0 / 100

OCRBench v2Predicted

83.9 / 100

Open LLM AveragePredicted

22.8 / 100

Open LLM: BBHPredicted

52.6 / 100

Open LLM: GPQAPredicted

30.8 / 100

Open LLM: IFEvalPredicted

45.3 / 100

Open LLM: MATH Level 5Predicted

13.1 / 100

Open LLM: MMLU-PROPredicted

36.4 / 100

Open LLM: MUSRPredicted

41.8 / 100

RE-BenchPredicted

81.1

SimpleBenchPredicted

46.2 / 100

simpleqaPredicted

40.5

SWE-bench LitePredicted

43.2 / 100

SWE-bench VerifiedPredicted

67.1 / 100

tau-bench RetailPredicted

83.5 / 100

Vectara Factual ConsistencyPredicted

90.6 / 100

Vectara Hallucination RatePredicted

9.4 / 100

WebArenaPredicted

2.0 / 100

WeirdMLPredicted

52.4 / 100

WildBenchPredicted

46.3