Gemini 3 Deep Think

February 5, 2026Last synced Jun 12, 2026, 8:42 PM

Human Frontier

—

Human-calibrated frontier signal, backed by Arena-style preference evidence and separate from raw AgMoBench benchmark composite scores.

Blended Price

Free/M

Input Price

Free/M

Output Price

Free/M

Speed

—

TTFT

—

Benchmark Scores

Intelligence Index

External Benchmarks

ARC-AGI-1

How Gemini 3 Deep Think Compares

Axes

X Axis

Y Axis

Bubble Size

Filters

Blended Price (USD)$0.00 – $37.5

AgMoBench Overall≥ 2.0

Providers

ai2ai21-labsalibabaanthropicarceeawsazurebaidu

Show quadrants

alibaba

mistral

anthropic

openai

meta

liquidai

nvidia

azure

google

deepseek

stepfun

cohere

minimax

ibm

nous-research

multiversecomputing

kimi

aws

zai

deepcogito

kwaikat

xai

xiaomi

ai21-labs

inclusionai

baidu

sarvam

prime-intellect

bytedance_seed

inception

upstage

reka-ai

tencent

arcee

ai2

swiss-ai-initiative

perplexity

Bubble size = Context Window

8191.00

2000000.00

Compare with other models

GPQA Diamond

— / 100

LiveCodeBench

— / 100

Terminal-Bench Hard

— / 100

τ²-Bench

— / 100

ARC-AGI-1 Cost per Taskarc_agi

7.2

ARC-AGI-2arc_agi

84.6 / 100

ARC-AGI-2 Cost per Taskarc_agi

13.6

AA-Omniscience AccuracyPredicted

49.7 / 100

AA-Omniscience Hallucination RatePredicted

98.1 / 100

Aider PolyglotPredicted

80.1 / 100

AIMEPredicted

0.0 / 30

AIME 2025Predicted

0.6 / 30

AlpacaEval 2.0 LCPredicted

16.2 / 100

AlpacaEval 2.0 RawPredicted

13.0 / 100

BFCL (Berkeley Function Calling)Predicted

45.8

BigCodeBench CompletePredicted

29.9 / 100

BigCodeBench InstructPredicted

23.2 / 100

AA Intelligence Index (Matrix)Predicted

53.9

AA Long Context Reasoning (Matrix)Predicted

78.3

AIME 2024Predicted

97.7

AIME 2025 (Matrix)Predicted

99.9

Arena-Hard AutoPredicted

60.2

BrowseCompPredicted

86.9

BRUMO 2025Predicted

99.9

CMIMC 2025Predicted

96.7

CritPtPredicted

39.9

GPQA Diamond (Matrix)Predicted

86.1

HLE (Matrix)Predicted

52.7

HMMT Feb 2025Predicted

96.5

HMMT Nov 2025Predicted

95.0

HumanEvalPredicted

92.5

IFBench (Matrix)Predicted

65.3

IFEvalPredicted

89.7

IMO 2025Predicted

63.2

LiveCodeBench (Matrix)Predicted

78.0

MATH-500 (Matrix)Predicted

97.5

MathArena Apex 2025Predicted

23.5

MMLU-Pro (Matrix)Predicted

85.7

MMMU-ProPredicted

78.6

MRCR v2Predicted

83.4

OSWorldPredicted

75.9

SimpleQAPredicted

70.8

SMT 2025Predicted

95.9

SWE-bench ProPredicted

58.8

Tau-Bench Telecom (Matrix)Predicted

99.2

Terminal-Bench 2.0Predicted

81.0

Terminal-Bench 1.0Predicted

53.4

USAMO 2025Predicted

33.2

Video-MMUPredicted

85.0

browsecompPredicted

88.0

BullshitBenchPredicted

61.8 / 100

Aider PolyglotPredicted

0.3

Apex AgentsPredicted

4.3

BIG-Bench HardPredicted

3.0

CAD-EvalPredicted

3.2

Chess PuzzlesPredicted

0.4

CyBenchPredicted

0.7

DeepResearchBenchPredicted

0.5

FictionLiveBenchPredicted

0.9

GeoBenchPredicted

0.0

GSM8K (Epoch)Predicted

0.0

HellaSwagPredicted

0.0

Lech Mazur WritingPredicted

8.4

METR Time HorizonsPredicted

53.9

OTIS Mock AIME 2024–2025Predicted

0.4

PosttrainbenchPredicted

0.0

SimpleQA Verified (Epoch)Predicted

0.8

The Agent CompanyPredicted

2.2

TriviaQAPredicted

25.8

WinoGrandePredicted

0.7

FrontierMathPredicted

49.6 / 100

GAIA Level 1Predicted

56.7

GAIA Level 2Predicted

21.0

GAIA Level 3Predicted

4.6

GAIAPredicted

39.0 / 100

GPQA DiamondPredicted

0.7 / 100

HLEPredicted

0.1 / 100

IFBenchPredicted

0.6 / 100

LCRPredicted

0.1 / 100

LegalBenchPredicted

45.6 / 100

LiveBench CodingPredicted

80.6 / 100

LiveBench Data AnalysisPredicted

76.2 / 100

LiveBench LanguagePredicted

86.1 / 100

LiveBench MathPredicted

90.4 / 100

LiveBench OverallPredicted

80.7 / 100

LiveBench ReasoningPredicted

86.7 / 100

LiveCodeBenchPredicted

0.4 / 100

LongBench v2 EasyPredicted

46.7

LongBench v2 HardPredicted

15.9

LongBench v2Predicted

17.5 / 100

MATH-500Predicted

0.7 / 100

MathVistaPredicted

52.3 / 100

MedQA (USMLE)Predicted

92.2

MLE-benchPredicted

79.2 / 100

MMLU ProPredicted

0.7 / 100

MMMUPredicted

79.0 / 100

MMTU Table UnderstandingPredicted

66.7 / 100

MT-BenchPredicted

7.7 / 10

NoLiMa (NIAH)Predicted

89.7 / 100

OCRBench v2Predicted

81.5 / 100

Open LLM AveragePredicted

9.7 / 100

Open LLM: BBHPredicted

32.2 / 100

Open LLM: GPQAPredicted

24.9 / 100

Open LLM: IFEvalPredicted

27.5 / 100

Open LLM: MATH Level 5Predicted

0.9 / 100

Open LLM: MMLU-PROPredicted

18.2 / 100

Open LLM: MUSRPredicted

36.0 / 100

RE-BenchPredicted

100.0

SciCodePredicted

0.1 / 100

SimpleBenchPredicted

70.2 / 100

simpleqaPredicted

62.5

SWE-bench LitePredicted

44.8 / 100

SWE-bench VerifiedPredicted

80.9 / 100

τ²-BenchPredicted

0.8 / 100

tau-bench RetailPredicted

93.6 / 100

Terminal-Bench HardPredicted

0.0 / 100

Vectara Factual ConsistencyPredicted

83.2 / 100

Vectara Hallucination RatePredicted

16.8 / 100

WebArenaPredicted

0.1 / 100

WeirdMLPredicted

60.1 / 100

WildBenchPredicted

37.1

Arc Agi 2epoch_ai

0.5