Models Agents EvalsIndustry

AgMoDB by @mistakeknot

Gemini 1.5 Pro (May '24) | AgMoDB

Gemini 1.5 Pro (May '24)

May 15, 2024Last synced Apr 7, 2026, 4:00 PM

Blended Price

Free/M

Input Price

Free/M

Output Price

Free/M

Speed

0 tok/s

TTFT

0.00s

Benchmark Scores

Intelligence Index

External Benchmarks

ARC-AGI-2

How Gemini 1.5 Pro (May '24) Compares

Axes

X Axis

Y Axis

Bubble Size

Filters

Blended Price (USD)$0.00 – $30.0

AgMoBench Overall≥ 3.5

Providers

ai21-labsalibabaanthropicawsazurebaiducoheredeepseek

Show quadrants

anthropic

openai

google

meta

mistral

nvidia

kimi

xai

azure

deepseek

aws

cohere

baidu

ai21-labs

zai

reka-ai

xiaomi

alibaba

minimax

ibm

Bubble size = Context Window

16384.00

2000000.00

Compare with other models

12.0

Coding Index

19.8

Math Index

—

MMLU Pro

0.7 / 100

GPQA Diamond

0.4 / 100

HLE

0.0 / 100

LiveCodeBench

0.2 / 100

SciCode

0.3 / 100

MATH-500

0.7 / 100

AIME

0.1 / 30

AIME 2025

— / 30

IFBench

— / 100

LCR

— / 100

Terminal-Bench Hard

— / 100

τ²-Bench

— / 100

arc_agi

0.8 / 100

ARC-AGI-2 Cost per Taskarc_agi

0.0

AA-Omniscience AccuracyPredicted

42.5 / 100

AA-Omniscience Hallucination RatePredicted

96.0 / 100

Aider PolyglotPredicted

43.8 / 100

AIME 2025Predicted

0.2 / 30

AlpacaEval 2.0 LCPredicted

36.4 / 100

AlpacaEval 2.0 RawPredicted

53.0 / 100

ARC-AGI-1Predicted

10.4 / 100

ARC-AGI-1 Cost per TaskPredicted

0.1

BFCL (Berkeley Function Calling)Predicted

41.0

AA Intelligence Index (Matrix)Predicted

31.4

AA Long Context Reasoning (Matrix)Predicted

72.5

AIME 2024Predicted

52.8

AIME 2025 (Matrix)Predicted

83.1

Arena-Hard AutoPredicted

64.9

BrowseCompPredicted

86.7

BRUMO 2025Predicted

89.8

CMIMC 2025Predicted

80.9

CritPtPredicted

0.3

GPQA Diamond (Matrix)Predicted

71.3

GSM8KPredicted

90.6

HLE (Matrix)Predicted

24.3

HMMT Feb 2025Predicted

76.0

HMMT Nov 2025Predicted

90.6

HumanEvalPredicted

88.3

IFBench (Matrix)Predicted

43.0

IFEvalPredicted

82.1

IMO 2025Predicted

20.0

LiveCodeBench (Matrix)Predicted

68.7

MATH-500 (Matrix)Predicted

96.8

MathArena Apex 2025Predicted

1.7

MMLUPredicted

85.7

MMLU-Pro (Matrix)Predicted

73.0

MMMU-ProPredicted

80.3

MRCR v2Predicted

75.0

OSWorldPredicted

48.5

SimpleQAPredicted

29.5

SMT 2025Predicted

84.8

SWE-bench ProPredicted

41.1

Tau-Bench Telecom (Matrix)Predicted

96.9

Terminal-Bench 2.0Predicted

71.6

Terminal-Bench 1.0Predicted

22.0

USAMO 2025Predicted

10.3

Video-MMUPredicted

36.9

browsecompPredicted

65.1

BullshitBenchPredicted

21.2 / 100

Aider PolyglotPredicted

0.0

Apex AgentsPredicted

4.5

BIG-Bench HardPredicted

3.0

BoolQPredicted

0.8

Chess PuzzlesPredicted

0.2

DeepResearchBenchPredicted

0.2

FictionLiveBenchPredicted

0.5

GdpvalPredicted

0.2

GeoBenchPredicted

0.0

GSM8K (Epoch)Predicted

5.3

GSOPredicted

0.0

HellaSwagPredicted

6.2

Lech Mazur WritingPredicted

7.5

METR Time HorizonsPredicted

60.5

PIQAPredicted

0.8

PosttrainbenchPredicted

0.0

SimpleQA Verified (Epoch)Predicted

0.3

TriviaQAPredicted

5.5

VPCTPredicted

0.4

WinoGrandePredicted

0.8

FrontierMathPredicted

17.6 / 100

IFBenchPredicted

0.4 / 100

LCRPredicted

0.0 / 100

LegalBenchPredicted

88.0 / 100

LiveBench CodingPredicted

73.3 / 100

LiveBench Data AnalysisPredicted

51.7 / 100

LiveBench LanguagePredicted

70.5 / 100

LiveBench MathPredicted

68.9 / 100

LiveBench OverallPredicted

53.0 / 100

LiveBench ReasoningPredicted

65.2 / 100

LongBench v2 EasyPredicted

46.1

LongBench v2 HardPredicted

40.9

LongBench v2Predicted

37.1 / 100

MedQA (USMLE)Predicted

81.7

MLE-benchPredicted

17.4 / 100

MMTU Table UnderstandingPredicted

47.7 / 100

MT-BenchPredicted

7.9 / 10

OCRBench v2Predicted

91.1 / 100

Open LLM AveragePredicted

11.3 / 100

Open LLM: BBHPredicted

22.9 / 100

Open LLM: GPQAPredicted

22.7 / 100

Open LLM: IFEvalPredicted

24.0 / 100

Open LLM: MATH Level 5Predicted

49.5 / 100

Open LLM: MMLU-PROPredicted

16.3 / 100

Open LLM: MUSRPredicted

28.0 / 100

RE-BenchPredicted

32.7

simpleqaPredicted

30.5

SWE-bench LitePredicted

24.2 / 100

SWE-bench VerifiedPredicted

51.4 / 100

τ²-BenchPredicted

0.2 / 100

tau-bench RetailPredicted

70.4 / 100

Terminal-Bench HardPredicted

0.0 / 100

Vectara Factual ConsistencyPredicted

91.7 / 100

Vectara Hallucination RatePredicted

8.3 / 100

WebArenaPredicted

10.7 / 100

WeirdMLPredicted

34.3 / 100

BigCodeBench Completebigcodebench

57.5 / 100

BigCodeBench Instructbigcodebench

43.8 / 100

Arc Agi 2epoch_ai

0.0

BALROGepoch_ai

0.0

CAD-Evalepoch_ai

3.6

CyBenchepoch_ai

9.0

Hleepoch_ai

0.0

OTIS Mock AIME 2024–2025epoch_ai

0.2

The Agent Companyepoch_ai

6.8

GAIA Level 1gaia

58.1

GAIA Level 2gaia

51.6

GAIA Level 3gaia

24.5

GAIAgaia

49.2 / 100

MathVistamathvista

52.1 / 100

MMMUmmmu

62.2 / 100

NoLiMa (NIAH)nolima

92.6 / 100

SimpleBenchsimplebench

27.1 / 100

Video-MME Longvideomme

77.4

Video-MME Mediumvideomme

81.0

Video-MMEvideomme

81.3 / 100

Video-MME Shortvideomme

84.5

WildBenchwildbench

47.4