Models Agents EvalsIndustry

AgMoDB by @mistakeknot

Gemini 1.5 Flash (May '24) | AgMoDB

Gemini 1.5 Flash (May '24)

May 14, 2024Last synced Apr 7, 2026, 4:00 PM

Blended Price

Free/M

Input Price

Free/M

Output Price

Free/M

Speed

0 tok/s

TTFT

0.00s

Benchmark Scores

Intelligence Index

External Benchmarks

AA-Omniscience Accuracy

How Gemini 1.5 Flash (May '24) Compares

Axes

X Axis

Y Axis

Bubble Size

Filters

Blended Price (USD)$0.00 – $30.0

AgMoBench Overall≥ 3.5

Providers

ai21-labsalibabaanthropicawsazurebaiducoheredeepseek

Show quadrants

anthropic

openai

google

meta

mistral

nvidia

kimi

xai

azure

deepseek

aws

cohere

baidu

ai21-labs

zai

reka-ai

xiaomi

alibaba

minimax

ibm

Bubble size = Context Window

16384.00

2000000.00

Compare with other models

10.5

Coding Index

—

Math Index

—

MMLU Pro

0.6 / 100

GPQA Diamond

0.3 / 100

HLE

0.0 / 100

LiveCodeBench

0.2 / 100

SciCode

0.2 / 100

MATH-500

0.6 / 100

AIME

0.1 / 30

AIME 2025

— / 30

IFBench

— / 100

LCR

— / 100

Terminal-Bench Hard

— / 100

τ²-Bench

— / 100

Predicted

41.8 / 100

AA-Omniscience Hallucination RatePredicted

94.4 / 100

Aider PolyglotPredicted

12.6 / 100

AIME 2025Predicted

0.1 / 30

AlpacaEval 2.0 LCPredicted

41.0 / 100

AlpacaEval 2.0 RawPredicted

27.5 / 100

ARC-AGI-1Predicted

4.1 / 100

ARC-AGI-1 Cost per TaskPredicted

0.0

ARC-AGI-2Predicted

8.9 / 100

ARC-AGI-2 Cost per TaskPredicted

0.0

BFCL (Berkeley Function Calling)Predicted

28.6

AA Intelligence Index (Matrix)Predicted

63.5

AA Long Context Reasoning (Matrix)Predicted

88.1

AIME 2024Predicted

29.0

AIME 2025 (Matrix)Predicted

63.7

Arena-Hard AutoPredicted

39.7

BrowseCompPredicted

63.3

BRUMO 2025Predicted

80.3

CMIMC 2025Predicted

69.6

CritPtPredicted

0.1

GPQA Diamond (Matrix)Predicted

44.7

GSM8KPredicted

80.1

HLE (Matrix)Predicted

48.4

HMMT Feb 2025Predicted

70.7

HMMT Nov 2025Predicted

89.1

HumanEvalPredicted

74.1

IFBench (Matrix)Predicted

26.9

IFEvalPredicted

79.8

IMO 2025Predicted

11.3

LiveCodeBench (Matrix)Predicted

34.5

MATH-500 (Matrix)Predicted

87.7

MathArena Apex 2025Predicted

0.9

MMLUPredicted

76.1

MMLU-Pro (Matrix)Predicted

60.4

MMMU-ProPredicted

79.1

MRCR v2Predicted

89.7

OSWorldPredicted

46.5

SimpleQAPredicted

19.8

SMT 2025Predicted

77.3

SWE-bench ProPredicted

37.8

Tau-Bench Telecom (Matrix)Predicted

95.6

Terminal-Bench 2.0Predicted

21.4

Terminal-Bench 1.0Predicted

11.0

USAMO 2025Predicted

4.3

Video-MMUPredicted

85.6

browsecompPredicted

61.6

BullshitBenchPredicted

8.0 / 100

Aider PolyglotPredicted

0.0

Apex AgentsPredicted

2.4

Arc Agi 2Predicted

0.0

BIG-Bench HardPredicted

3.0

CAD-EvalPredicted

3.3

Chess PuzzlesPredicted

0.1

CyBenchPredicted

0.1

DeepResearchBenchPredicted

0.3

FictionLiveBenchPredicted

0.3

GdpvalPredicted

0.2

GSOPredicted

0.0

HellaSwagPredicted

9.7

HlePredicted

0.0

Lech Mazur WritingPredicted

6.7

METR Time HorizonsPredicted

0.3

PosttrainbenchPredicted

0.0

SimpleQA Verified (Epoch)Predicted

0.2

The Agent CompanyPredicted

1.0

TriviaQAPredicted

2.5

VPCTPredicted

0.3

WinoGrandePredicted

0.8

FrontierMathPredicted

12.8 / 100

GAIA Level 1Predicted

11.6

GAIA Level 2Predicted

4.3

GAIA Level 3Predicted

0.0

GAIAPredicted

7.1 / 100

IFBenchPredicted

0.3 / 100

LCRPredicted

0.0 / 100

LegalBenchPredicted

73.0 / 100

LiveBench CodingPredicted

65.1 / 100

LiveBench Data AnalysisPredicted

40.6 / 100

LiveBench LanguagePredicted

50.3 / 100

LiveBench MathPredicted

58.7 / 100

LiveBench OverallPredicted

42.9 / 100

LiveBench ReasoningPredicted

35.7 / 100

LongBench v2 EasyPredicted

36.6

LongBench v2 HardPredicted

35.3

LongBench v2Predicted

32.0 / 100

MedQA (USMLE)Predicted

72.8

MLE-benchPredicted

12.3 / 100

MMTU Table UnderstandingPredicted

41.8 / 100

MT-BenchPredicted

8.2 / 10

OCRBench v2Predicted

73.5 / 100

Open LLM AveragePredicted

40.5 / 100

Open LLM: BBHPredicted

65.1 / 100

Open LLM: GPQAPredicted

34.1 / 100

Open LLM: IFEvalPredicted

76.8 / 100

Open LLM: MATH Level 5Predicted

40.9 / 100

Open LLM: MMLU-PROPredicted

50.2 / 100

Open LLM: MUSRPredicted

43.7 / 100

RE-BenchPredicted

0.5

SimpleBenchPredicted

19.0 / 100

simpleqaPredicted

12.7

SWE-bench LitePredicted

8.8 / 100

SWE-bench VerifiedPredicted

27.8 / 100

τ²-BenchPredicted

0.1 / 100

tau-bench RetailPredicted

68.7 / 100

Terminal-Bench HardPredicted

0.0 / 100

Vectara Factual ConsistencyPredicted

93.7 / 100

Vectara Hallucination RatePredicted

6.3 / 100

WebArenaPredicted

5.6 / 100

WeirdMLPredicted

15.2 / 100

BigCodeBench Completebigcodebench

55.1 / 100

BigCodeBench Instructbigcodebench

43.5 / 100

BALROGepoch_ai

0.0

BoolQepoch_ai

0.9

GeoBenchepoch_ai

0.0

GSM8K (Epoch)epoch_ai

8.0

OTIS Mock AIME 2024–2025epoch_ai

0.0

PIQAepoch_ai

0.9

MathVistamathvista

58.4 / 100

MMMUmmmu

56.1 / 100

NoLiMa (NIAH)nolima

84.7 / 100

Video-MME Longvideomme

68.8

Video-MME Mediumvideomme

74.7

Video-MMEvideomme

75.0 / 100

Video-MME Shortvideomme

79.8

WildBenchwildbench

44.1