Models Agents EvalsIndustry

AgMoDB by @mistakeknot

Meta: Llama 3.2 1B Instruct | AgMoDB

Meta: Llama 3.2 1B Instruct

Last synced Apr 7, 2026, 2:04 PM60K context

Blended Price

$0.070/M

Input Price

$0.027/M

Output Price

$0.20/M

Speed

—

TTFT

—

Benchmark Scores

Intelligence Index

External Benchmarks

AA-Omniscience Accuracy

How Meta: Llama 3.2 1B Instruct Compares

Axes

X Axis

Y Axis

Bubble Size

Filters

Blended Price (USD)$0.00 – $30.0

AgMoBench Overall≥ 3.5

Providers

ai21-labsalibabaanthropicawsazurebaiducoheredeepseek

Show quadrants

anthropic

openai

google

meta

mistral

nvidia

kimi

xai

azure

deepseek

aws

cohere

baidu

ai21-labs

zai

reka-ai

xiaomi

alibaba

minimax

ibm

Bubble size = Context Window

16384.00

2000000.00

Compare with other models

—

Coding Index

—

Math Index

—

MMLU Pro

— / 100

GPQA Diamond

— / 100

HLE

— / 100

LiveCodeBench

— / 100

SciCode

— / 100

MATH-500

— / 100

AIME

— / 30

AIME 2025

— / 30

IFBench

— / 100

LCR

— / 100

Terminal-Bench Hard

— / 100

τ²-Bench

— / 100

Predicted

56.0 / 100

AA-Omniscience Hallucination RatePredicted

97.3 / 100

Aider PolyglotPredicted

6.4 / 100

AIMEPredicted

0.0 / 30

AIME 2025Predicted

0.0 / 30

AlpacaEval 2.0 LCPredicted

11.6 / 100

AlpacaEval 2.0 RawPredicted

9.8 / 100

ARC-AGI-1Predicted

40.5 / 100

ARC-AGI-1 Cost per TaskPredicted

0.5

ARC-AGI-2Predicted

21.0 / 100

ARC-AGI-2 Cost per TaskPredicted

0.5

AA Intelligence Index (Matrix)Predicted

41.0

AA Long Context Reasoning (Matrix)Predicted

91.6

AIME 2024Predicted

6.7

AIME 2025 (Matrix)Predicted

70.7

Arena-Hard AutoPredicted

2.9

BrowseCompPredicted

93.9

BRUMO 2025Predicted

99.9

CMIMC 2025Predicted

95.1

CritPtPredicted

39.9

GPQA Diamond (Matrix)Predicted

25.3

GSM8KPredicted

76.4

HLE (Matrix)Predicted

21.1

HMMT Feb 2025Predicted

67.3

HMMT Nov 2025Predicted

95.7

HumanEvalPredicted

50.8

IFBench (Matrix)Predicted

13.4

IFEvalPredicted

58.2

IMO 2025Predicted

60.0

LiveCodeBench (Matrix)Predicted

16.1

MATH-500 (Matrix)Predicted

67.1

MathArena Apex 2025Predicted

51.2

MMLUPredicted

61.1

MMLU-Pro (Matrix)Predicted

41.0

MMMU-ProPredicted

75.7

MRCR v2Predicted

93.4

OSWorldPredicted

36.4

SimpleQAPredicted

42.0

SMT 2025Predicted

83.7

SWE-bench ProPredicted

86.9

Tau-Bench Telecom (Matrix)Predicted

99.5

Terminal-Bench 2.0Predicted

90.8

Terminal-Bench 1.0Predicted

34.7

USAMO 2025Predicted

9.5

Video-MMUPredicted

82.2

browsecompPredicted

95.6

BullshitBenchPredicted

25.3 / 100

Aider PolyglotPredicted

0.1

Apex AgentsPredicted

6.4

Arc Agi 2Predicted

1.2

BIG-Bench HardPredicted

3.0

BoolQPredicted

0.8

CAD-EvalPredicted

4.9

Chess PuzzlesPredicted

0.6

CyBenchPredicted

0.1

DeepResearchBenchPredicted

0.4

FictionLiveBenchPredicted

0.5

GdpvalPredicted

0.9

GeoBenchPredicted

0.0

GSM8K (Epoch)Predicted

0.0

GSOPredicted

5.3

HellaSwagPredicted

0.0

HlePredicted

0.2

Lech Mazur WritingPredicted

6.6

METR Time HorizonsPredicted

20.1

OTIS Mock AIME 2024–2025Predicted

0.0

PIQAPredicted

0.8

PosttrainbenchPredicted

0.0

SimpleQA Verified (Epoch)Predicted

0.8

The Agent CompanyPredicted

0.5

TriviaQAPredicted

16.6

VPCTPredicted

0.2

WinoGrandePredicted

0.6

FrontierMathPredicted

40.4 / 100

GAIA Level 1Predicted

5.2

GAIA Level 2Predicted

2.7

GAIA Level 3Predicted

0.0

GAIAPredicted

3.2 / 100

GPQA DiamondPredicted

0.1 / 100

HLEPredicted

0.0 / 100

IFBenchPredicted

0.1 / 100

LCRPredicted

0.0 / 100

LegalBenchPredicted

4.4 / 100

LiveBench CodingPredicted

82.4 / 100

LiveBench Data AnalysisPredicted

78.4 / 100

LiveBench LanguagePredicted

88.2 / 100

LiveBench MathPredicted

92.1 / 100

LiveBench OverallPredicted

82.3 / 100

LiveBench ReasoningPredicted

87.5 / 100

LiveCodeBenchPredicted

0.0 / 100

LongBench v2 EasyPredicted

18.2

LongBench v2 HardPredicted

13.7

LongBench v2Predicted

22.5 / 100

MATH-500Predicted

0.0 / 100

MathVistaPredicted

35.2 / 100

MedQA (USMLE)Predicted

30.7

MLE-benchPredicted

69.5 / 100

MMLU ProPredicted

0.1 / 100

MMMUPredicted

39.2 / 100

MMTU Table UnderstandingPredicted

56.3 / 100

MT-BenchPredicted

5.4 / 10

NoLiMa (NIAH)Predicted

67.0 / 100

OCRBench v2Predicted

37.8 / 100

RE-BenchPredicted

100.0

SciCodePredicted

0.0 / 100

SimpleBenchPredicted

41.7 / 100

simpleqaPredicted

34.7

SWE-bench LitePredicted

3.3 / 100

SWE-bench VerifiedPredicted

41.0 / 100

τ²-BenchPredicted

0.0 / 100

tau-bench RetailPredicted

95.3 / 100

Terminal-Bench HardPredicted

0.0 / 100

Vectara Factual ConsistencyPredicted

91.7 / 100

Vectara Hallucination RatePredicted

8.3 / 100

WebArenaPredicted

0.0 / 100

WeirdMLPredicted

10.5 / 100

WildBenchPredicted

18.2

BFCL (Berkeley Function Calling)bfcl

10.8

BigCodeBench Completebigcodebench

11.3 / 100

BigCodeBench Instructbigcodebench

8.2 / 100

BALROGepoch_ai

0.0

EQ-Bench 3eqbench

951.0

HuggingFace Downloads (30d)hf-downloads

1268180.0

HuggingFace Likeshf-downloads

2356.0

Open LLM Averageopen_llm_leaderboard

14.5 / 100

Open LLM: BBHopen_llm_leaderboard

34.8 / 100

Open LLM: GPQAopen_llm_leaderboard

26.8 / 100

Open LLM: IFEvalopen_llm_leaderboard

58.1 / 100

Open LLM: MATH Level 5open_llm_leaderboard

8.2 / 100

Open LLM: MMLU-PROopen_llm_leaderboard

17.4 / 100

Open LLM: MUSRopen_llm_leaderboard

32.0 / 100