Models Agents EvalsIndustry

AgMoDB by @mistakeknot

Google: Gemini 3.1 Pro Preview Custom Tools | AgMoDB

Google: Gemini 3.1 Pro Preview Custom Tools

Last synced Apr 7, 2026, 2:03 PM1049K context

Blended Price

$4.50/M

Input Price

$2.00/M

Output Price

$12.00/M

Speed

—

TTFT

—

Benchmark Scores

Intelligence Index

External Benchmarks

ARC-AGI-1

How Google: Gemini 3.1 Pro Preview Custom Tools Compares

Axes

X Axis

Y Axis

Bubble Size

Filters

Blended Price (USD)$0.00 – $30.0

AgMoBench Overall≥ 3.5

Providers

ai21-labsalibabaanthropicawsazurebaiducoheredeepseek

Show quadrants

anthropic

openai

google

meta

mistral

nvidia

kimi

xai

azure

deepseek

aws

cohere

baidu

ai21-labs

zai

reka-ai

xiaomi

alibaba

minimax

ibm

Bubble size = Context Window

16384.00

2000000.00

Compare with other models

—

Coding Index

—

Math Index

—

MMLU Pro

— / 100

GPQA Diamond

— / 100

HLE

— / 100

LiveCodeBench

— / 100

SciCode

— / 100

MATH-500

— / 100

AIME

— / 30

AIME 2025

— / 30

IFBench

— / 100

LCR

— / 100

Terminal-Bench Hard

— / 100

τ²-Bench

— / 100

benchmark_matrix

90.0 / 100

ARC-AGI-2benchmark_matrix

77.1 / 100

AA Intelligence Index (Matrix)benchmark_matrix

57.0

AIME 2024benchmark_matrix

98.0

AIME 2025 (Matrix)benchmark_matrix

100.0

AIME 2026benchmark_matrix

97.0

BrowseCompbenchmark_matrix

85.9

Chatbot Arena ELO (Matrix)benchmark_matrix

1490.0

Codeforces Ratingbenchmark_matrix

2700.0

CritPtbenchmark_matrix

17.7

GPQA Diamond (Matrix)benchmark_matrix

94.3

HLE (Matrix)benchmark_matrix

44.4

HumanEvalbenchmark_matrix

95.0

IFEvalbenchmark_matrix

89.2

LiveCodeBench (Matrix)benchmark_matrix

82.0

MATH-500 (Matrix)benchmark_matrix

98.5

MathArena Apex 2025benchmark_matrix

33.5

MathVisionbenchmark_matrix

69.8

MMLUbenchmark_matrix

92.6

MMLU-Pro (Matrix)benchmark_matrix

89.5

MMMU-Probenchmark_matrix

80.5

MRCR v2benchmark_matrix

84.9

OSWorldbenchmark_matrix

72.0

SciCode (Matrix)benchmark_matrix

58.9

SimpleQAbenchmark_matrix

72.1

SWE-bench Probenchmark_matrix

54.2

Terminal-Bench 2.0benchmark_matrix

68.5

browsecompbenchmark_matrix

85.9

FrontierMathbenchmark_matrix

40.0 / 100

MMMUbenchmark_matrix

87.5 / 100

SimpleBenchbenchmark_matrix

79.6 / 100

simpleqabenchmark_matrix

72.1

SWE-bench Verifiedbenchmark_matrix

80.6 / 100

tau-bench Retailbenchmark_matrix

90.5 / 100

AA-Omniscience AccuracyPredicted

49.8 / 100

AA-Omniscience Hallucination RatePredicted

95.2 / 100

Aider PolyglotPredicted

84.4 / 100

AIMEPredicted

0.2 / 30

AIME 2025Predicted

0.9 / 30

AlpacaEval 2.0 LCPredicted

17.8 / 100

AlpacaEval 2.0 RawPredicted

14.1 / 100

ARC-AGI-1 Cost per TaskPredicted

3.4

ARC-AGI-2 Cost per TaskPredicted

8.2

BFCL (Berkeley Function Calling)Predicted

55.1

BigCodeBench CompletePredicted

34.3 / 100

BigCodeBench InstructPredicted

26.7 / 100

AA Long Context Reasoning (Matrix)Predicted

75.3

Arena-Hard AutoPredicted

71.7

BRUMO 2025Predicted

99.9

CMIMC 2025Predicted

96.3

GSM8KPredicted

83.9

HMMT Feb 2025Predicted

97.6

HMMT Nov 2025Predicted

96.5

IFBench (Matrix)Predicted

72.4

IMO 2025Predicted

47.6

SMT 2025Predicted

38.3

Tau-Bench Telecom (Matrix)Predicted

99.1

Terminal-Bench 1.0Predicted

55.6

USAMO 2025Predicted

68.3

Video-MMUPredicted

93.9

BullshitBenchPredicted

60.7 / 100

Aider PolyglotPredicted

0.2

Apex AgentsPredicted

3.5

Arc Agi 2Predicted

0.3

BALROGPredicted

0.0

BIG-Bench HardPredicted

3.0

BoolQPredicted

0.6

CAD-EvalPredicted

2.5

Chess PuzzlesPredicted

0.4

CyBenchPredicted

0.9

DeepResearchBenchPredicted

0.5

FictionLiveBenchPredicted

0.7

GdpvalPredicted

0.6

GeoBenchPredicted

0.0

GSM8K (Epoch)Predicted

1.9

GSOPredicted

1.1

HellaSwagPredicted

0.0

HlePredicted

0.4

Lech Mazur WritingPredicted

8.8

METR Time HorizonsPredicted

58.8

OTIS Mock AIME 2024–2025Predicted

1.0

PIQAPredicted

0.8

PosttrainbenchPredicted

0.0

SimpleQA Verified (Epoch)Predicted

0.8

The Agent CompanyPredicted

2.9

TriviaQAPredicted

27.6

VPCTPredicted

0.8

WinoGrandePredicted

1.6

GAIA Level 1Predicted

76.4

GAIA Level 2Predicted

50.7

GAIA Level 3Predicted

56.9

GAIAPredicted

60.2 / 100

GPQA DiamondPredicted

0.8 / 100

HLEPredicted

0.2 / 100

IFBenchPredicted

0.6 / 100

LCRPredicted

0.8 / 100

LiveBench CodingPredicted

79.8 / 100

LiveBench Data AnalysisPredicted

75.4 / 100

LiveBench LanguagePredicted

84.9 / 100

LiveBench MathPredicted

91.0 / 100

LiveBench OverallPredicted

79.5 / 100

LiveBench ReasoningPredicted

85.6 / 100

LiveCodeBenchPredicted

0.6 / 100

LongBench v2 EasyPredicted

44.0

LongBench v2 HardPredicted

40.5

LongBench v2Predicted

21.3 / 100

MATH-500Predicted

0.9 / 100

MathVistaPredicted

81.2 / 100

MedQA (USMLE)Predicted

96.2

MLE-benchPredicted

78.3 / 100

MMLU ProPredicted

0.8 / 100

MMTU Table UnderstandingPredicted

73.2 / 100

MT-BenchPredicted

7.8 / 10

NoLiMa (NIAH)Predicted

92.1 / 100

OCRBench v2Predicted

83.6 / 100

Open LLM AveragePredicted

18.3 / 100

Open LLM: BBHPredicted

48.9 / 100

Open LLM: GPQAPredicted

27.2 / 100

Open LLM: IFEvalPredicted

25.4 / 100

Open LLM: MATH Level 5Predicted

3.5 / 100

Open LLM: MMLU-PROPredicted

33.0 / 100

Open LLM: MUSRPredicted

36.7 / 100

RE-BenchPredicted

100.0

SciCodePredicted

0.4 / 100

SWE-bench LitePredicted

58.8 / 100

τ²-BenchPredicted

0.9 / 100

Terminal-Bench HardPredicted

0.4 / 100

Vectara Factual ConsistencyPredicted

87.4 / 100

Vectara Hallucination RatePredicted

12.6 / 100

WildBenchPredicted

38.6

browsecompbrowsecomp

85.9

Epoch Capabilities Indexepoch_ai

157.1

LegalBenchlegalbench

10.0 / 100

WebArenawebarena

7.1 / 100

WeirdMLweirdml

72.1 / 100