Models Agents EvalsIndustry

AgMoDB by @mistakeknot

Meta: Llama 3.3 70B Instruct | AgMoDB

Meta: Llama 3.3 70B Instruct

Last synced Apr 7, 2026, 2:04 PM131K context

Blended Price

$0.15/M

Input Price

$0.100/M

Output Price

$0.32/M

Speed

—

TTFT

—

Benchmark Scores

Intelligence Index

External Benchmarks

AA-Omniscience Accuracy

How Meta: Llama 3.3 70B Instruct Compares

Axes

X Axis

Y Axis

Bubble Size

Filters

Blended Price (USD)$0.00 – $30.0

AgMoBench Overall≥ 3.5

Providers

ai21-labsalibabaanthropicawsazurebaiducoheredeepseek

Show quadrants

anthropic

openai

google

meta

mistral

nvidia

kimi

xai

azure

deepseek

aws

cohere

baidu

ai21-labs

zai

reka-ai

xiaomi

alibaba

minimax

ibm

Bubble size = Context Window

16384.00

2000000.00

Compare with other models

—

Coding Index

—

Math Index

—

MMLU Pro

— / 100

GPQA Diamond

— / 100

HLE

— / 100

LiveCodeBench

— / 100

SciCode

— / 100

MATH-500

— / 100

AIME

— / 30

AIME 2025

— / 30

IFBench

— / 100

LCR

— / 100

Terminal-Bench Hard

— / 100

τ²-Bench

— / 100

Predicted

36.6 / 100

AA-Omniscience Hallucination RatePredicted

97.0 / 100

Aider PolyglotPredicted

17.0 / 100

AIMEPredicted

0.2 / 30

AIME 2025Predicted

0.1 / 30

AlpacaEval 2.0 LCPredicted

39.9 / 100

AlpacaEval 2.0 RawPredicted

31.4 / 100

ARC-AGI-1Predicted

3.4 / 100

ARC-AGI-1 Cost per TaskPredicted

0.0

ARC-AGI-2Predicted

0.0 / 100

ARC-AGI-2 Cost per TaskPredicted

0.0

AA Intelligence Index (Matrix)Predicted

62.1

AA Long Context Reasoning (Matrix)Predicted

77.2

AIME 2024Predicted

40.5

AIME 2025 (Matrix)Predicted

32.5

Arena-Hard AutoPredicted

55.9

BrowseCompPredicted

54.9

BRUMO 2025Predicted

64.2

CMIMC 2025Predicted

82.7

CritPtPredicted

60.0

GPQA Diamond (Matrix)Predicted

52.1

GSM8KPredicted

85.0

HLE (Matrix)Predicted

9.5

HMMT Feb 2025Predicted

20.2

HMMT Nov 2025Predicted

42.8

HumanEvalPredicted

79.0

IFBench (Matrix)Predicted

28.3

IFEvalPredicted

81.7

IMO 2025Predicted

8.4

LiveCodeBench (Matrix)Predicted

41.9

MATH-500 (Matrix)Predicted

91.0

MathArena Apex 2025Predicted

0.5

MMLUPredicted

79.2

MMLU-Pro (Matrix)Predicted

65.4

MMMU-ProPredicted

81.2

MRCR v2Predicted

79.7

OSWorldPredicted

25.0

SimpleQAPredicted

16.6

SMT 2025Predicted

58.8

SWE-bench ProPredicted

56.0

Tau-Bench Telecom (Matrix)Predicted

37.6

Terminal-Bench 2.0Predicted

13.8

Terminal-Bench 1.0Predicted

21.6

USAMO 2025Predicted

1.9

Video-MMUPredicted

86.2

browsecompPredicted

51.4

BullshitBenchPredicted

7.3 / 100

Aider PolyglotPredicted

0.0

Apex AgentsPredicted

2.0

Arc Agi 2Predicted

1.4

BIG-Bench HardPredicted

3.0

BoolQPredicted

0.9

CAD-EvalPredicted

4.4

Chess PuzzlesPredicted

0.1

CyBenchPredicted

0.1

DeepResearchBenchPredicted

0.3

GdpvalPredicted

0.2

GeoBenchPredicted

0.0

GSM8K (Epoch)Predicted

26.8

GSOPredicted

0.0

HellaSwagPredicted

42.9

HlePredicted

0.2

Lech Mazur WritingPredicted

6.9

METR Time HorizonsPredicted

0.2

PIQAPredicted

0.9

PosttrainbenchPredicted

0.0

SimpleQA Verified (Epoch)Predicted

0.2

The Agent CompanyPredicted

1.2

TriviaQAPredicted

2.0

VPCTPredicted

0.3

WinoGrandePredicted

0.8

FrontierMathPredicted

39.1 / 100

GAIA Level 1Predicted

49.7

GAIA Level 2Predicted

34.6

GAIA Level 3Predicted

10.8

GAIAPredicted

37.6 / 100

GPQA DiamondPredicted

0.5 / 100

HLEPredicted

0.0 / 100

IFBenchPredicted

0.3 / 100

LCRPredicted

0.1 / 100

LegalBenchPredicted

84.8 / 100

LiveBench CodingPredicted

62.0 / 100

LiveBench Data AnalysisPredicted

35.1 / 100

LiveBench LanguagePredicted

43.3 / 100

LiveBench MathPredicted

51.4 / 100

LiveBench OverallPredicted

36.9 / 100

LiveBench ReasoningPredicted

28.3 / 100

LiveCodeBenchPredicted

0.3 / 100

LongBench v2 EasyPredicted

40.1

LongBench v2 HardPredicted

33.8

LongBench v2Predicted

31.3 / 100

MATH-500Predicted

0.8 / 100

MathVistaPredicted

55.0 / 100

MedQA (USMLE)Predicted

75.5

MLE-benchPredicted

9.8 / 100

MMLU ProPredicted

0.7 / 100

MMMUPredicted

61.6 / 100

MT-BenchPredicted

8.5 / 10

OCRBench v2Predicted

79.5 / 100

RE-BenchPredicted

0.0

SciCodePredicted

0.3 / 100

simpleqaPredicted

16.4

SWE-bench LitePredicted

11.9 / 100

SWE-bench VerifiedPredicted

20.4 / 100

τ²-BenchPredicted

0.0 / 100

tau-bench RetailPredicted

65.7 / 100

Terminal-Bench HardPredicted

0.0 / 100

Vectara Factual ConsistencyPredicted

92.3 / 100

Vectara Hallucination RatePredicted

7.7 / 100

WebArenaPredicted

32.4 / 100

WildBenchPredicted

52.9

BFCL (Berkeley Function Calling)bfcl

31.9

BigCodeBench Completebigcodebench

57.5 / 100

BigCodeBench Instructbigcodebench

46.9 / 100

BALROGepoch_ai

0.0

Epoch Capabilities Indexepoch_ai

127.5

FictionLiveBenchepoch_ai

0.3

OTIS Mock AIME 2024–2025epoch_ai

0.1

HuggingFace Downloads (30d)hf-downloads

428304.0

HuggingFace Likeshf-downloads

2693.0

MMTU Table Understandingmmtu

45.4 / 100

NoLiMa (NIAH)nolima

97.3 / 100

Open LLM Averageopen_llm_leaderboard

44.8 / 100

Open LLM: BBHopen_llm_leaderboard

69.2 / 100

Open LLM: GPQAopen_llm_leaderboard

32.9 / 100

Open LLM: IFEvalopen_llm_leaderboard

90.0 / 100

Open LLM: MATH Level 5open_llm_leaderboard

48.3 / 100

Open LLM: MMLU-PROopen_llm_leaderboard

53.3 / 100

Open LLM: MUSRopen_llm_leaderboard

44.6 / 100

SimpleBenchsimplebench

19.9 / 100

WeirdMLweirdml

14.4 / 100