Models Agents EvalsIndustry

AgMoDB by @mistakeknot

Mistral: Ministral 3 3B 2512 | AgMoDB

Mistral: Ministral 3 3B 2512

Last synced Apr 7, 2026, 2:03 PM131K context

Blended Price

$0.100/M

Input Price

$0.100/M

Output Price

$0.100/M

Speed

—

TTFT

—

Benchmark Scores

Intelligence Index

External Benchmarks

AA-Omniscience Accuracy

How Mistral: Ministral 3 3B 2512 Compares

Axes

X Axis

Y Axis

Bubble Size

Filters

Blended Price (USD)$0.00 – $30.0

AgMoBench Overall≥ 3.5

Providers

ai21-labsalibabaanthropicawsazurebaiducoheredeepseek

Show quadrants

anthropic

openai

google

meta

mistral

nvidia

kimi

xai

azure

deepseek

aws

cohere

baidu

ai21-labs

zai

reka-ai

xiaomi

alibaba

minimax

ibm

Bubble size = Context Window

16384.00

2000000.00

Compare with other models

—

Coding Index

—

Math Index

—

MMLU Pro

— / 100

GPQA Diamond

— / 100

HLE

— / 100

LiveCodeBench

— / 100

SciCode

— / 100

MATH-500

— / 100

AIME

— / 30

AIME 2025

— / 30

IFBench

— / 100

LCR

— / 100

Terminal-Bench Hard

— / 100

τ²-Bench

— / 100

Predicted

52.7 / 100

AA-Omniscience Hallucination RatePredicted

98.5 / 100

Aider PolyglotPredicted

82.8 / 100

AIMEPredicted

0.0 / 30

AIME 2025Predicted

0.5 / 30

AlpacaEval 2.0 LCPredicted

12.3 / 100

AlpacaEval 2.0 RawPredicted

10.1 / 100

ARC-AGI-1Predicted

99.0 / 100

ARC-AGI-1 Cost per TaskPredicted

9.5

ARC-AGI-2Predicted

99.7 / 100

ARC-AGI-2 Cost per TaskPredicted

20.6

BFCL (Berkeley Function Calling)Predicted

43.5

BigCodeBench CompletePredicted

22.8 / 100

BigCodeBench InstructPredicted

17.6 / 100

AA Intelligence Index (Matrix)Predicted

49.1

AA Long Context Reasoning (Matrix)Predicted

80.2

AIME 2024Predicted

98.0

AIME 2025 (Matrix)Predicted

100.0

Arena-Hard AutoPredicted

49.7

BrowseCompPredicted

91.4

BRUMO 2025Predicted

100.0

CMIMC 2025Predicted

98.2

CritPtPredicted

75.4

GPQA Diamond (Matrix)Predicted

86.6

GSM8KPredicted

91.9

HLE (Matrix)Predicted

64.2

HMMT Feb 2025Predicted

98.1

HMMT Nov 2025Predicted

96.0

HumanEvalPredicted

92.3

IFBench (Matrix)Predicted

69.1

IFEvalPredicted

89.6

IMO 2025Predicted

76.5

LiveCodeBench (Matrix)Predicted

78.1

MATH-500 (Matrix)Predicted

97.3

MathArena Apex 2025Predicted

47.5

MMLUPredicted

89.5

MMLU-Pro (Matrix)Predicted

85.7

MMMU-ProPredicted

77.4

MRCR v2Predicted

85.3

OSWorldPredicted

84.0

SimpleQAPredicted

79.8

SMT 2025Predicted

97.5

SWE-bench ProPredicted

65.3

Tau-Bench Telecom (Matrix)Predicted

99.5

Terminal-Bench 2.0Predicted

90.7

Terminal-Bench 1.0Predicted

63.2

USAMO 2025Predicted

41.5

Video-MMUPredicted

84.4

browsecompPredicted

92.8

BullshitBenchPredicted

74.5 / 100

Aider PolyglotPredicted

0.5

Apex AgentsPredicted

5.3

Arc Agi 2Predicted

9.1

BALROGPredicted

0.0

BIG-Bench HardPredicted

3.0

BoolQPredicted

0.8

CAD-EvalPredicted

3.1

Chess PuzzlesPredicted

0.6

CyBenchPredicted

1.0

DeepResearchBenchPredicted

0.6

FictionLiveBenchPredicted

1.0

GdpvalPredicted

1.1

GeoBenchPredicted

0.0

GSM8K (Epoch)Predicted

0.0

GSOPredicted

13.9

HellaSwagPredicted

0.0

HlePredicted

0.5

Lech Mazur WritingPredicted

8.6

METR Time HorizonsPredicted

81.1

OTIS Mock AIME 2024–2025Predicted

0.4

PIQAPredicted

0.8

PosttrainbenchPredicted

0.0

SimpleQA Verified (Epoch)Predicted

1.1

The Agent CompanyPredicted

2.1

TriviaQAPredicted

37.0

VPCTPredicted

0.9

WinoGrandePredicted

0.7

FrontierMathPredicted

63.2 / 100

GAIA Level 1Predicted

48.6

GAIA Level 2Predicted

11.7

GAIA Level 3Predicted

1.3

GAIAPredicted

31.7 / 100

GPQA DiamondPredicted

0.7 / 100

HLEPredicted

0.1 / 100

IFBenchPredicted

0.6 / 100

LCRPredicted

0.1 / 100

LegalBenchPredicted

28.0 / 100

LiveBench CodingPredicted

83.9 / 100

LiveBench Data AnalysisPredicted

82.9 / 100

LiveBench LanguagePredicted

91.0 / 100

LiveBench MathPredicted

94.0 / 100

LiveBench OverallPredicted

86.8 / 100

LiveBench ReasoningPredicted

92.4 / 100

LiveCodeBenchPredicted

0.3 / 100

LongBench v2 EasyPredicted

43.7

LongBench v2 HardPredicted

31.2

LongBench v2Predicted

29.1 / 100

MATH-500Predicted

0.6 / 100

MathVistaPredicted

49.6 / 100

MedQA (USMLE)Predicted

91.9

MLE-benchPredicted

88.6 / 100

MMLU ProPredicted

0.6 / 100

MMMUPredicted

78.7 / 100

MMTU Table UnderstandingPredicted

68.1 / 100

MT-BenchPredicted

7.7 / 10

NoLiMa (NIAH)Predicted

87.2 / 100

OCRBench v2Predicted

65.6 / 100

Open LLM AveragePredicted

6.7 / 100

Open LLM: BBHPredicted

25.3 / 100

Open LLM: GPQAPredicted

22.7 / 100

Open LLM: IFEvalPredicted

21.7 / 100

Open LLM: MATH Level 5Predicted

1.1 / 100

Open LLM: MMLU-PROPredicted

13.3 / 100

Open LLM: MUSRPredicted

33.8 / 100

RE-BenchPredicted

100.0

SciCodePredicted

0.0 / 100

SimpleBenchPredicted

77.9 / 100

simpleqaPredicted

70.5

SWE-bench LitePredicted

45.4 / 100

SWE-bench VerifiedPredicted

85.0 / 100

τ²-BenchPredicted

0.8 / 100

tau-bench RetailPredicted

95.7 / 100

Terminal-Bench HardPredicted

0.0 / 100

WebArenaPredicted

0.0 / 100

WeirdMLPredicted

63.1 / 100

WildBenchPredicted

34.7

Vectara Factual Consistencyvectara_hallucination

75.8 / 100

Vectara Hallucination Ratevectara_hallucination

24.2 / 100