Models Agents EvalsIndustry

AgMoDB by @mistakeknot

Meta: Llama 3.1 70B Instruct | AgMoDB

Meta: Llama 3.1 70B Instruct

Last synced Apr 7, 2026, 2:04 PM131K context

Blended Price

$0.40/M

Input Price

$0.40/M

Output Price

$0.40/M

Speed

—

TTFT

—

Benchmark Scores

Intelligence Index

External Benchmarks

AlpacaEval 2.0 LC

How Meta: Llama 3.1 70B Instruct Compares

Axes

X Axis

Y Axis

Bubble Size

Filters

Blended Price (USD)$0.00 – $30.0

AgMoBench Overall≥ 3.5

Providers

ai21-labsalibabaanthropicawsazurebaiducoheredeepseek

Show quadrants

anthropic

openai

google

meta

mistral

nvidia

kimi

xai

azure

deepseek

aws

cohere

baidu

ai21-labs

zai

reka-ai

xiaomi

alibaba

minimax

ibm

Bubble size = Context Window

16384.00

2000000.00

Compare with other models

—

Coding Index

—

Math Index

—

MMLU Pro

— / 100

GPQA Diamond

— / 100

HLE

— / 100

LiveCodeBench

— / 100

SciCode

— / 100

MATH-500

— / 100

AIME

— / 30

AIME 2025

— / 30

IFBench

— / 100

LCR

— / 100

Terminal-Bench Hard

— / 100

τ²-Bench

— / 100

alpacaeval

38.1 / 100

AlpacaEval 2.0 Rawalpacaeval

39.1 / 100

AA-Omniscience AccuracyPredicted

40.3 / 100

AA-Omniscience Hallucination RatePredicted

97.0 / 100

Aider PolyglotPredicted

10.4 / 100

AIMEPredicted

0.1 / 30

AIME 2025Predicted

0.0 / 30

ARC-AGI-1Predicted

3.2 / 100

ARC-AGI-1 Cost per TaskPredicted

0.0

ARC-AGI-2Predicted

0.0 / 100

ARC-AGI-2 Cost per TaskPredicted

0.0

BFCL (Berkeley Function Calling)Predicted

34.7

AA Intelligence Index (Matrix)Predicted

65.8

AA Long Context Reasoning (Matrix)Predicted

77.2

AIME 2024Predicted

62.4

AIME 2025 (Matrix)Predicted

8.5

Arena-Hard AutoPredicted

59.1

BrowseCompPredicted

57.0

BRUMO 2025Predicted

63.6

CMIMC 2025Predicted

82.5

CritPtPredicted

0.1

GPQA Diamond (Matrix)Predicted

42.2

GSM8KPredicted

76.0

HLE (Matrix)Predicted

62.3

HMMT Feb 2025Predicted

21.1

HMMT Nov 2025Predicted

87.6

HumanEvalPredicted

77.5

IFBench (Matrix)Predicted

24.2

IFEvalPredicted

78.2

IMO 2025Predicted

8.0

LiveCodeBench (Matrix)Predicted

40.6

MATH-500 (Matrix)Predicted

87.2

MathArena Apex 2025Predicted

0.5

MMLUPredicted

76.8

MMLU-Pro (Matrix)Predicted

58.5

MMMU-ProPredicted

81.0

MRCR v2Predicted

76.0

OSWorldPredicted

31.5

SimpleQAPredicted

17.8

SMT 2025Predicted

61.5

SWE-bench ProPredicted

56.3

Tau-Bench Telecom (Matrix)Predicted

94.2

Terminal-Bench 2.0Predicted

14.5

Terminal-Bench 1.0Predicted

9.9

USAMO 2025Predicted

3.4

Video-MMUPredicted

85.9

browsecompPredicted

66.2

BullshitBenchPredicted

59.1 / 100

Aider PolyglotPredicted

0.0

Apex AgentsPredicted

2.1

Arc Agi 2Predicted

4.3

BIG-Bench HardPredicted

3.0

BoolQPredicted

0.9

CAD-EvalPredicted

8.5

Chess PuzzlesPredicted

0.1

CyBenchPredicted

0.1

DeepResearchBenchPredicted

20.6

FictionLiveBenchPredicted

0.3

GdpvalPredicted

0.1

GeoBenchPredicted

0.0

GSM8K (Epoch)Predicted

22.4

GSOPredicted

0.0

HellaSwagPredicted

63.5

HlePredicted

0.2

Lech Mazur WritingPredicted

6.6

METR Time HorizonsPredicted

0.1

PIQAPredicted

0.9

PosttrainbenchPredicted

0.0

SimpleQA Verified (Epoch)Predicted

0.4

TriviaQAPredicted

2.3

VPCTPredicted

0.3

WinoGrandePredicted

0.8

FrontierMathPredicted

39.7 / 100

GAIA Level 1Predicted

45.2

GAIA Level 2Predicted

32.0

GAIA Level 3Predicted

10.8

GAIAPredicted

34.5 / 100

GPQA DiamondPredicted

0.3 / 100

HLEPredicted

0.0 / 100

IFBenchPredicted

0.2 / 100

LCRPredicted

0.1 / 100

LegalBenchPredicted

79.8 / 100

LiveBench CodingPredicted

69.2 / 100

LiveBench Data AnalysisPredicted

41.9 / 100

LiveBench LanguagePredicted

58.6 / 100

LiveBench MathPredicted

59.9 / 100

LiveBench OverallPredicted

46.1 / 100

LiveBench ReasoningPredicted

43.3 / 100

LiveCodeBenchPredicted

0.2 / 100

LongBench v2 EasyPredicted

37.4

LongBench v2 HardPredicted

37.1

LongBench v2Predicted

28.3 / 100

MATH-500Predicted

0.7 / 100

MathVistaPredicted

51.2 / 100

MedQA (USMLE)Predicted

61.3

MLE-benchPredicted

9.9 / 100

MMLU ProPredicted

0.6 / 100

MMMUPredicted

55.8 / 100

MMTU Table UnderstandingPredicted

49.6 / 100

MT-BenchPredicted

8.4 / 10

NoLiMa (NIAH)Predicted

90.7 / 100

OCRBench v2Predicted

75.9 / 100

RE-BenchPredicted

0.0

SciCodePredicted

0.2 / 100

SimpleBenchPredicted

18.2 / 100

simpleqaPredicted

16.6

SWE-bench LitePredicted

8.0 / 100

SWE-bench VerifiedPredicted

20.3 / 100

τ²-BenchPredicted

0.0 / 100

tau-bench RetailPredicted

72.5 / 100

Terminal-Bench HardPredicted

0.0 / 100

Vectara Factual ConsistencyPredicted

92.3 / 100

Vectara Hallucination RatePredicted

7.7 / 100

WebArenaPredicted

7.4 / 100

WildBenchPredicted

51.3

BigCodeBench Completebigcodebench

54.8 / 100

BigCodeBench Instructbigcodebench

46.1 / 100

BALROGepoch_ai

0.0

OTIS Mock AIME 2024–2025epoch_ai

0.0

The Agent Companyepoch_ai

0.8

HuggingFace Downloads (30d)hf-downloads

992211.0

HuggingFace Likeshf-downloads

907.0

Open LLM Averageopen_llm_leaderboard

43.4 / 100

Open LLM: BBHopen_llm_leaderboard

69.2 / 100

Open LLM: GPQAopen_llm_leaderboard

35.7 / 100

Open LLM: IFEvalopen_llm_leaderboard

86.7 / 100

Open LLM: MATH Level 5open_llm_leaderboard

38.1 / 100

Open LLM: MMLU-PROopen_llm_leaderboard

53.1 / 100

Open LLM: MUSRopen_llm_leaderboard

45.8 / 100

WeirdMLweirdml

9.0 / 100