Models Agents EvalsIndustry

AgMoDB by @mistakeknot

Google: Gemini 3 Flash Preview | AgMoDB

Google: Gemini 3 Flash Preview

Last synced Apr 7, 2026, 2:03 PM1049K context

Blended Price

$1.13/M

Input Price

$0.50/M

Output Price

$3.00/M

Speed

—

TTFT

—

Benchmark Scores

Intelligence Index

External Benchmarks

AA-Omniscience Accuracy

How Google: Gemini 3 Flash Preview Compares

Axes

X Axis

Y Axis

Bubble Size

Filters

Blended Price (USD)$0.00 – $30.0

AgMoBench Overall≥ 3.5

Providers

ai21-labsalibabaanthropicawsazurebaiducoheredeepseek

Show quadrants

anthropic

openai

google

meta

mistral

nvidia

kimi

xai

azure

deepseek

aws

cohere

baidu

ai21-labs

zai

reka-ai

xiaomi

alibaba

minimax

ibm

Bubble size = Context Window

16384.00

2000000.00

Compare with other models

—

Coding Index

—

Math Index

—

MMLU Pro

— / 100

GPQA Diamond

— / 100

HLE

— / 100

LiveCodeBench

— / 100

SciCode

— / 100

MATH-500

— / 100

AIME

— / 30

AIME 2025

— / 30

IFBench

— / 100

LCR

— / 100

Terminal-Bench Hard

— / 100

τ²-Bench

— / 100

Predicted

45.0 / 100

AA-Omniscience Hallucination RatePredicted

88.5 / 100

Aider PolyglotPredicted

83.7 / 100

AIMEPredicted

0.3 / 30

AIME 2025Predicted

0.9 / 30

AlpacaEval 2.0 LCPredicted

68.0 / 100

AlpacaEval 2.0 RawPredicted

65.8 / 100

ARC-AGI-1Predicted

83.9 / 100

ARC-AGI-1 Cost per TaskPredicted

0.9

ARC-AGI-2Predicted

51.2 / 100

ARC-AGI-2 Cost per TaskPredicted

1.8

BFCL (Berkeley Function Calling)Predicted

53.9

BigCodeBench CompletePredicted

55.4 / 100

BigCodeBench InstructPredicted

48.0 / 100

AA Intelligence Index (Matrix)Predicted

61.7

AA Long Context Reasoning (Matrix)Predicted

71.1

AIME 2024Predicted

98.6

AIME 2025 (Matrix)Predicted

99.8

Arena-Hard AutoPredicted

80.6

BrowseCompPredicted

76.3

BRUMO 2025Predicted

99.3

CMIMC 2025Predicted

92.4

CritPtPredicted

8.3

GPQA Diamond (Matrix)Predicted

89.2

GSM8KPredicted

95.6

HLE (Matrix)Predicted

38.7

HMMT Feb 2025Predicted

94.2

HMMT Nov 2025Predicted

93.1

HumanEvalPredicted

94.5

IFBench (Matrix)Predicted

64.0

IFEvalPredicted

91.5

IMO 2025Predicted

43.3

LiveCodeBench (Matrix)Predicted

83.1

MATH-500 (Matrix)Predicted

98.3

MathArena Apex 2025Predicted

6.1

MMLUPredicted

91.6

MMLU-Pro (Matrix)Predicted

88.5

MMMU-ProPredicted

80.7

MRCR v2Predicted

69.1

OSWorldPredicted

54.1

SimpleQAPredicted

58.1

SMT 2025Predicted

92.7

SWE-bench ProPredicted

43.8

Tau-Bench Telecom (Matrix)Predicted

98.4

Terminal-Bench 2.0Predicted

56.6

Terminal-Bench 1.0Predicted

42.6

USAMO 2025Predicted

27.4

Video-MMUPredicted

86.1

browsecompPredicted

75.8

Aider PolyglotPredicted

0.2

BIG-Bench HardPredicted

3.0

BoolQPredicted

0.7

CAD-EvalPredicted

8.7

CyBenchPredicted

0.6

DeepResearchBenchPredicted

0.5

FictionLiveBenchPredicted

0.9

GdpvalPredicted

0.5

GSM8K (Epoch)Predicted

0.0

GSOPredicted

0.3

HellaSwagPredicted

0.0

HlePredicted

0.3

Lech Mazur WritingPredicted

8.6

METR Time HorizonsPredicted

20.5

PIQAPredicted

0.8

PosttrainbenchPredicted

0.0

The Agent CompanyPredicted

2.8

TriviaQAPredicted

16.4

WinoGrandePredicted

0.8

FrontierMathPredicted

31.1 / 100

GAIA Level 1Predicted

75.7

GAIA Level 2Predicted

61.7

GAIA Level 3Predicted

70.0

GAIAPredicted

62.6 / 100

GPQA DiamondPredicted

0.8 / 100

HLEPredicted

0.1 / 100

IFBenchPredicted

0.6 / 100

LCRPredicted

0.6 / 100

LegalBenchPredicted

82.3 / 100

LiveBench CodingPredicted

75.4 / 100

LiveBench Data AnalysisPredicted

64.9 / 100

LiveBench LanguagePredicted

76.2 / 100

LiveBench MathPredicted

82.4 / 100

LiveBench OverallPredicted

69.7 / 100

LiveBench ReasoningPredicted

73.8 / 100

LiveCodeBenchPredicted

0.7 / 100

LongBench v2 EasyPredicted

54.5

LongBench v2 HardPredicted

44.1

LongBench v2Predicted

40.3 / 100

MATH-500Predicted

0.9 / 100

MathVistaPredicted

57.8 / 100

MedQA (USMLE)Predicted

94.8

MLE-benchPredicted

60.6 / 100

MMLU ProPredicted

0.8 / 100

MMMUPredicted

82.6 / 100

MMTU Table UnderstandingPredicted

69.2 / 100

MT-BenchPredicted

7.9 / 10

NoLiMa (NIAH)Predicted

93.4 / 100

OCRBench v2Predicted

82.8 / 100

Open LLM AveragePredicted

14.8 / 100

Open LLM: BBHPredicted

42.4 / 100

Open LLM: GPQAPredicted

27.9 / 100

Open LLM: IFEvalPredicted

32.4 / 100

Open LLM: MATH Level 5Predicted

5.4 / 100

Open LLM: MMLU-PROPredicted

26.6 / 100

Open LLM: MUSRPredicted

39.3 / 100

RE-BenchPredicted

99.9

SciCodePredicted

0.4 / 100

simpleqaPredicted

54.1

SWE-bench LitePredicted

71.7 / 100

τ²-BenchPredicted

0.9 / 100

tau-bench RetailPredicted

89.0 / 100

Terminal-Bench HardPredicted

0.2 / 100

WebArenaPredicted

0.5 / 100

WildBenchPredicted

39.5

BullshitBenchbullshitbench

10.0 / 100

Apex Agentsepoch_ai

3.3

Arc Agi 2epoch_ai

0.0

BALROGepoch_ai

0.0

Chess Puzzlesepoch_ai

0.4

GeoBenchepoch_ai

0.0

OTIS Mock AIME 2024–2025epoch_ai

0.9

SimpleQA Verified (Epoch)epoch_ai

0.7

VPCTepoch_ai

0.7

OpenRouter Token Volumeopenrouter_rankings

1010000000000.0

OpenRouter Weekly Trendopenrouter_rankings

3.0

SimpleBenchsimplebench

61.1 / 100

SWE-bench Verifiedswebench

75.8 / 100

Vectara Factual Consistencyvectara_hallucination

86.5 / 100

Vectara Hallucination Ratevectara_hallucination

13.5 / 100

WeirdMLweirdml

61.6 / 100