Models Agents EvalsIndustry

AgMoDB by @mistakeknot

DeepSeek R1 Distill Llama 8B | AgMoDB

DeepSeek R1 Distill Llama 8B

January 20, 2025Last synced Apr 7, 2026, 4:00 PM

Blended Price

Free/M

Input Price

Free/M

Output Price

Free/M

Speed

0 tok/s

TTFT

0.00s

Benchmark Scores

Intelligence Index

External Benchmarks

AIME 2024benchmark_matrix

How DeepSeek R1 Distill Llama 8B Compares

Axes

X Axis

Y Axis

Bubble Size

Filters

Blended Price (USD)$0.00 – $30.0

AgMoBench Overall≥ 3.5

Providers

ai21-labsalibabaanthropicawsazurebaiducoheredeepseek

Show quadrants

anthropic

openai

google

meta

mistral

nvidia

kimi

xai

azure

deepseek

aws

cohere

baidu

ai21-labs

zai

reka-ai

xiaomi

alibaba

minimax

ibm

Bubble size = Context Window

16384.00

2000000.00

Compare with other models

12.1

Coding Index

—

Math Index

41.3

MMLU Pro

0.5 / 100

GPQA Diamond

0.3 / 100

HLE

0.0 / 100

LiveCodeBench

0.2 / 100

SciCode

0.1 / 100

MATH-500

0.9 / 100

AIME

0.3 / 30

AIME 2025

0.4 / 30

IFBench

0.2 / 100

LCR

0.0 / 100

Terminal-Bench Hard

— / 100

τ²-Bench

— / 100

50.4

AIME 2025 (Matrix)benchmark_matrix

27.8

Arena-Hard Autobenchmark_matrix

17.6

Codeforces Ratingbenchmark_matrix

1205.0

GPQA Diamond (Matrix)benchmark_matrix

49.0

IFEvalbenchmark_matrix

59.0

LiveCodeBench (Matrix)benchmark_matrix

42.5

MATH-500 (Matrix)benchmark_matrix

89.1

AA-Omniscience AccuracyPredicted

50.1 / 100

AA-Omniscience Hallucination RatePredicted

97.5 / 100

Aider PolyglotPredicted

29.3 / 100

AlpacaEval 2.0 LCPredicted

8.8 / 100

AlpacaEval 2.0 RawPredicted

6.5 / 100

ARC-AGI-1Predicted

37.0 / 100

ARC-AGI-1 Cost per TaskPredicted

0.3

ARC-AGI-2Predicted

15.5 / 100

ARC-AGI-2 Cost per TaskPredicted

0.4

BFCL (Berkeley Function Calling)Predicted

27.3

AA Intelligence Index (Matrix)Predicted

41.8

AA Long Context Reasoning (Matrix)Predicted

77.0

BrowseCompPredicted

86.8

BRUMO 2025Predicted

99.7

CMIMC 2025Predicted

90.2

CritPtPredicted

13.9

GSM8KPredicted

90.1

HLE (Matrix)Predicted

18.0

HMMT Feb 2025Predicted

80.0

HMMT Nov 2025Predicted

94.3

HumanEvalPredicted

73.9

IFBench (Matrix)Predicted

25.9

IMO 2025Predicted

47.1

MathArena Apex 2025Predicted

17.5

MMLUPredicted

74.6

MMLU-Pro (Matrix)Predicted

58.6

MMMU-ProPredicted

76.7

MRCR v2Predicted

81.8

OSWorldPredicted

49.7

SimpleQAPredicted

35.7

SMT 2025Predicted

87.7

SWE-bench ProPredicted

38.9

Tau-Bench Telecom (Matrix)Predicted

99.0

Terminal-Bench 2.0Predicted

75.2

Terminal-Bench 1.0Predicted

34.7

USAMO 2025Predicted

13.9

Video-MMUPredicted

60.8

browsecompPredicted

88.4

BullshitBenchPredicted

21.2 / 100

Aider PolyglotPredicted

0.5

Apex AgentsPredicted

4.3

Arc Agi 2Predicted

0.1

BALROGPredicted

0.0

BIG-Bench HardPredicted

3.0

BoolQPredicted

0.9

CAD-EvalPredicted

6.6

Chess PuzzlesPredicted

0.4

CyBenchPredicted

0.2

DeepResearchBenchPredicted

0.4

FictionLiveBenchPredicted

0.6

GdpvalPredicted

0.6

GeoBenchPredicted

0.0

GSM8K (Epoch)Predicted

4.8

GSOPredicted

0.8

HellaSwagPredicted

0.0

HlePredicted

0.2

Lech Mazur WritingPredicted

7.3

METR Time HorizonsPredicted

13.7

OTIS Mock AIME 2024–2025Predicted

0.1

PIQAPredicted

0.8

PosttrainbenchPredicted

0.0

SimpleQA Verified (Epoch)Predicted

0.6

The Agent CompanyPredicted

1.1

TriviaQAPredicted

15.6

VPCTPredicted

0.2

WinoGrandePredicted

0.7

FrontierMathPredicted

27.6 / 100

GAIA Level 1Predicted

12.5

GAIA Level 2Predicted

1.2

GAIA Level 3Predicted

0.0

GAIAPredicted

7.3 / 100

LegalBenchPredicted

27.6 / 100

LiveBench CodingPredicted

78.3 / 100

LiveBench Data AnalysisPredicted

70.0 / 100

LiveBench LanguagePredicted

81.2 / 100

LiveBench MathPredicted

86.7 / 100

LiveBench OverallPredicted

74.4 / 100

LiveBench ReasoningPredicted

78.9 / 100

LongBench v2 EasyPredicted

32.5

LongBench v2 HardPredicted

26.5

LongBench v2Predicted

32.9 / 100

MathVistaPredicted

45.7 / 100

MedQA (USMLE)Predicted

69.3

MLE-benchPredicted

58.8 / 100

MMMUPredicted

60.7 / 100

MMTU Table UnderstandingPredicted

60.1 / 100

MT-BenchPredicted

5.7 / 10

NoLiMa (NIAH)Predicted

92.3 / 100

OCRBench v2Predicted

58.7 / 100

RE-BenchPredicted

100.0

SimpleBenchPredicted

37.8 / 100

simpleqaPredicted

35.7

SWE-bench LitePredicted

13.3 / 100

SWE-bench VerifiedPredicted

45.9 / 100

τ²-BenchPredicted

0.0 / 100

tau-bench RetailPredicted

92.1 / 100

Terminal-Bench HardPredicted

0.0 / 100

Vectara Factual ConsistencyPredicted

86.8 / 100

Vectara Hallucination RatePredicted

13.2 / 100

WebArenaPredicted

0.1 / 100

WeirdMLPredicted

26.5 / 100

WildBenchPredicted

28.3

BigCodeBench Completebigcodebench

15.3 / 100

BigCodeBench Instructbigcodebench

10.6 / 100

HuggingFace Downloads (30d)hf-downloads

1753480.0

HuggingFace Likeshf-downloads

844.0

Open LLM Averageopen_llm_leaderboard

13.1 / 100

Open LLM: BBHopen_llm_leaderboard

32.4 / 100

Open LLM: GPQAopen_llm_leaderboard

25.5 / 100

Open LLM: IFEvalopen_llm_leaderboard

37.8 / 100

Open LLM: MATH Level 5open_llm_leaderboard

22.0 / 100

Open LLM: MMLU-PROopen_llm_leaderboard

20.9 / 100

Open LLM: MUSRopen_llm_leaderboard

32.5 / 100