AgMoDB
ModelsAgentsEvalsVisualizeIndustry
AgMoDB by @mistakeknot

Benchmark Heatmap

Compare models across all benchmark scores at a glance. Colors are normalized per column (red = low, green = high).

Top
30
Sort by
ModelAgMoBenchAgMo TrustAgMo Pred.ReasoningCodingMathAgenticRobust.AA Intel.AA CodingAA MathMMLU ProGPQAHLELiveCodeSciCodeMATH-500AIMEAIME 25IFBenchLCRTB Hardτ²-BenchGDP-Val AAHMMT Nov 2…IFEvalLiveCodeBe…Chatbot Ar…SimpleQA V…Adversaria…BALROGBIG-Bench …BoolQCAD-EvalCyBenchDeepResear…FictionLiv…GeoBenchSWE-Bench …RE-BenchLongBench …GDPvalSWE-Bench …SEAL Tool …Open LLM: …Epoch Capa…HleSimpleQALiveBench …GSOMETR Time …VPCTWebDev ArenaGAIAMMLULAMBADATruthfulQAWebArenatau-bench …Aider Poly…MT-Benchtau-bench …Chess Puzz…Parameter …OTIS Mock …Training C…NoLiMa (NI…OpenBookQATraining C…OSWorld (E…Open LLM: …Open LLM: …AA-Omnisci…Open LLM: …BullshitBe…ARC-AGI-2SWE-bench …MMMUVideo-MMEBrowseCompArena ELO:…FORTRESSPropensity…MASKPRBench Fi…PRBench Le…MCP AtlasMultiChall…EnigmaEvalIFBench (M…Open LLM: …Open LLM: …MMMU-ProAIME 2026AA-Omnisci…OCRBench v2MMTU Table…IDP OlmOCRCyberGymIDP OmniDocIDP CoreOmniDocBen…Finance Ag…CharXiv Re…CharXiv Re…HLE (with …MedQA (USM…Video-MME …Video-MME …LiveBench …ARC-AGI-1MLE-benchPIQATriviaQAWinoGrandeBFCL (Berk…HuggingFac…AA-Omnisci…EQ-Bench 3HuggingFac…WeirdMLBRUMO 2025WildBenchAider Poly…Vectara Ha…GAIA Level 1Chatbot Ar…Codeforces…CritPtGSM8KHMMT Feb 2…HumanEvalMathVisionMRCR v2OSWorldSWE-bench …Tau-Bench …USAMO 2025Video-MMUAA Intelli…AA Long Co…SimpleBenchBigCodeBen…AIME 2024BigCodeBen…AIME 2025 …AIME 2026MathVistaArena-Hard…GPQA Diamo…LiveBench …LiveBench …OpenRouter…LiveBench …ARC-AGI-1 …ARC-AGI-2 …FrontierMathAlpacaEval…AlpacaEval…LongBench v2LegalBenchLiveBench …OpenRouter…HLE (Matrix)IMO 2025MATH-500 (…MathArena …SciCode (M…Terminal-B…BigCodeBenchCMIMC 2025MMLU-Pro (…MMMU-ProSMT 2025Terminal-B…GSM8K (Epo…HellaSwagLech Mazur…ScienceQAThe Agent …Video-MME …Apex AgentsArc Agi 2GAIA Level 3GAIA Level 2GdpvalPosttrainb…Open LLM A…LongBench …Arena ELO:…SWE-bench …BIRD-benchCybenchChemBenchOpen Finan…DABStepIDP OverallVectara Fa…Arena Elo …τ²-BenchBrowsecompSimpleqaLCRAIMEArena Elo …Terminal-B…Arena Elo …Arena Elo …IFBenchLiveCodeBe…Arena Elo …GPQA DiamondHLESciCode
Gemini 3.1 Pro Preview91.892.091.897.592.095.698.787.557.255.5——0.90.4—0.6———0.80.70.51.0——89.282.01487.00.8—0.0———————46.1———32.2——156.60.572.179.90.289.8—1446.5—92.6——————90.50.6—1.0———————32.9—37.077.180.687.5—85.91447.0—————78.271.419.8———80.598.3———69.8—85.389.6—59.7——51.496.4——84.098.0——————55.31302.0—72.1———10.4—1490.02700.017.7——95.069.884.972.054.2———57.0—79.6—98.0—100.097.0——94.391.085.4369000000000.078.50.51.040.0———87.476.523.044.4—98.533.558.968.5——89.580.5————————3.40.8———0.2——1490.0——————81.689.6—1.085.972.10.7———1280.0—0.8—1441.00.90.40.6
Gemini 3 Pro Preview (high)87.187.387.191.888.272.490.386.848.446.595.70.90.90.40.90.6——1.00.70.70.40.9—93.390.079.71486.00.7————————0.0—92.9—————153.40.472.173.40.254.10.99824.0—91.8——————88.50.3—0.9—————————48.054.069.687.5—85.91439.0———————————81.091.7———77.7—88.881.890.2————96.0——77.475.064.4———72.5—55.9———98.3——13.6—1501.02512.09.1—97.593.0—77.055.043.399.3—87.6——76.4—97.0—95.0———91.981.884.6141000000000.074.40.530.619.0———87.074.620.037.5—97.323.456.156.9—90.089.881.093.4———————3.00.3——0.50.0——1485.0——————82.886.4—0.985.972.10.7———1290.0—0.70.91433.00.90.40.6
Claude Opus 4.6 (Non-reasoning, High Effort)85.986.585.982.095.392.574.192.746.547.6——0.80.2—0.5———0.40.60.50.81606.0—94.076.01498.00.4—————0.9———51.9100.0——47.1——155.30.272.0—0.369.9—1542.7—90.8——7.1——7.991.90.2—0.9———————13.5—87.068.875.676.5—84.01539.013.0—96.353.352.376.8—————73.996.7———74.173.885.981.1—60.169.184.753.395.4———93.063.1—————45.11383.0—65.9———12.2—1502.02650.012.6—15.995.0—93.072.755.698.2——53.0—67.6—75.5—100.0——59.791.3——430000000000.0—1.93.640.027.317.0—85.3—18.040.0—93.0——62.9——82.077.3—39.0——————3.40.7———0.0——1472.0—70.293.0——94.480.487.8—0.884.072.00.6———1297.0—0.4—1507.00.80.20.5
Claude Sonnet 4.6 (Non-reasoning, High Effort)85.885.385.875.794.487.989.590.744.446.4——0.80.1—0.5———0.40.60.50.81633.0—92.074.01471.0—————————————————152.6——————1510.6—90.0——————89.0———————72.1——12.4—91.060.479.674.2——1523.0—————69.4—————74.5————73.9—86.981.2—————92.1———86.5——————40.01384.0—66.1———10.6——2010.0———93.0—82.072.548.297.0——51.0—————97.0———74.1——2170000000000.0—1.22.735.0———82.1—23.038.0—96.5——59.1——80.074.5—————————————0.2——1442.0——————80.789.4—0.878.068.00.6———1278.0—0.4—1487.00.80.10.5
GPT-5.2 (xhigh)81.082.581.083.386.197.070.768.751.348.799.00.90.90.40.90.5——1.00.80.70.50.8—95.895.080.01435.00.4—0.0————0.51.00.0—81.7——23.8——153.70.358.048.90.138.30.81641.0—88.0————0.1—88.00.5—1.0———————-1.0—38.072.969.086.7—77.91405.0—34.4—————————79.598.3———79.1—88.077.4—————94.1——42.894.5————55.9—43.81314.0—72.298.3——10.8—1440.02800.011.6—99.495.0—70.038.255.698.7—90.570.075.745.8—100.0—100.0———93.258.350.0165000000000.047.711.439.040.3———82.876.59.035.2—99.413.554.654.0—91.386.786.592.0———8.7———3.50.5——0.40.0——1391.0——————81.589.2—0.877.958.00.7———1230.0—0.80.91401.00.90.40.5
Claude Opus 4.5 (Reasoning)79.079.479.088.791.572.477.296.249.747.891.30.90.90.30.90.5——0.90.60.70.50.9——90.068.01474.00.4—————0.8——0.0—97.8—————149.70.172.076.00.349.40.44468.0—90.8——————88.90.1—0.8————66.3————90.037.674.480.7—67.81489.09.6—92.5——————————————————————95.9———80.0————77.5—40.7——63.7———10.9—1468.02070.00.3—92.995.1——66.345.998.2—68.4—75.062.0—90.0—92.8——59.787.0——157000000000.0—1.52.421.0———84.6—14.037.6—85.0——57.8——80.0——39.0——————3.10.1——0.60.0——————————89.1—0.967.872.00.7—————0.60.9—0.90.30.5
Claude Sonnet 4.6 (Non-reasoning, Low Effort)78.778.078.773.992.087.989.590.742.643.0——0.80.1—0.4———0.40.60.40.81633.0—92.074.0—0.3————————————————153.0—68.0————1510.6—90.0——————89.00.1—0.9———————12.4—91.060.479.674.2—78.01521.0—————————————————————————————86.5——————40.0——————10.6——2010.0———93.0—82.072.548.297.0——51.0—————97.0———74.1——972000000000.0—1.22.735.0—————22.038.0—96.5——59.1——80.074.5—————————0.6——————————————89.4—0.878.068.00.6—————0.4——0.80.10.4
Claude Sonnet 4.6 (Adaptive Reasoning, Max Effort)74.877.174.888.494.387.989.548.451.750.9——0.90.3—0.5———0.60.70.50.81633.0—87.648.5—0.3————————————————153.0——————1510.6—90.0——————89.00.1—0.9———————12.4—30.060.479.674.4——1521.0————————42.3————————————————————86.5——————40.01533.0—————10.6——2010.0——15.988.0—82.042.048.297.0——51.0———43.4—97.0——51.674.1——1040000000000.0—1.22.735.0—————7.05.8—96.5——59.1——80.074.5—36.4———————0.6——————————————89.4—0.878.015.90.7—————0.6——0.90.30.5
Claude Opus 4.5 (Non-reasoning)74.574.174.579.886.961.677.296.243.142.962.70.90.80.10.70.5——0.60.40.70.40.9——90.068.01473.00.4—0.0———0.8——0.045.997.8——23.4——149.90.172.076.00.349.40.44468.0—90.8——————88.90.1—0.8————66.3————90.037.674.480.7—67.81490.013.6——————————73.9—————————————93.2———80.0————77.5—45.71308.0—63.7———10.9—1468.02070.00.3—92.995.1——66.345.998.2—68.4—75.062.0—90.0—92.8——59.787.0——161000000000.0—1.52.421.0———82.8—29.037.6—85.0——57.8——80.0——39.0——————3.10.1——0.60.2——1468.0——82.0——98.9—89.1—0.967.872.00.7—————0.40.71461.00.80.10.5
Claude Opus 4.6 (Adaptive Reasoning, Max Effort)74.076.374.090.896.867.487.755.652.948.1——0.90.4—0.5———0.50.70.50.91606.0—89.747.41502.00.4———0.6—0.9————100.0—————143.70.2——0.369.9—1542.7—90.8—————7.991.90.2—0.9———————13.5—34.068.875.676.5——1548.013.0————75.8———————————————————————93.063.1—————45.1——78.0———12.2—1502.01886.00.3—15.995.0—93.038.235.898.2——53.0—67.6—75.5—100.0——59.791.3——1020000000000.0—1.93.610.027.317.0—85.3—11.07.1—94.4——43.2——86.677.3—39.05.00.0————3.40.7———0.0——————————87.8—0.984.022.80.7—————0.5——0.90.40.5
Grok 473.972.673.976.173.885.491.284.341.540.592.70.90.90.20.80.51.00.90.90.50.70.40.7—93.391.082.01474.00.5—0.0———0.40.51.00.0———————147.4—48.039.7—0.7—1188.9—94.0————59.6——0.33000000000000.00.8387842678.1——5.0000000000001e+26———15.3—56.065.179.075.0——1209.0—————————————96.9———————————92.5——25.689.5————63.0—41.41077.0—45.797.5—79.6——1465.02650.0——90.095.0——52.046.5—61.987.673.068.060.5—94.0—94.0———91.045.542.0—43.50.30.938.0———83.258.5—44.411.998.55.2—23.1—84.485.381.084.639.0——8.1———2.70.2——0.2———1467.0——43.0——————0.7—55.00.70.9——1249.01209.00.50.8—0.90.20.5
Gemini 3 Flash Preview (Non-reasoning)72.573.772.578.381.356.476.159.735.037.855.70.90.80.10.80.5——0.60.60.50.30.4—93.388.290.81473.00.7—0.0——————0.0———————150.9—60.072.40.1—0.73053.0—91.8——————82.00.4—0.9———————11.6—10.033.675.887.6—75.01437.0————————————96.7———75.3—90.180.590.4————95.8——74.584.762.7—————45.5———100.0——13.5—1473.02100.0——————50.034.6——86.9——61.1—93.0—90.4———90.484.284.6985000000000.074.80.20.230.0———86.973.92.033.7——15.6—51.7—90.688.681.292.9———————3.30.0——————1459.0——————82.086.5—0.475.060.00.5———1272.0—0.60.81413.00.80.10.5
GPT-5.2 (medium)72.073.872.077.089.296.667.863.546.644.296.70.90.90.20.90.5——1.00.70.60.40.7—95.895.080.01482.00.3—0.0————0.51.00.0—81.7—————153.80.358.048.90.138.30.61641.0—88.0————0.1—88.00.4—0.9———————-1.0—27.026.765.086.7—77.91472.0————————————————————————————42.872.7————55.9—43.8——60.798.3——10.8—1440.02800.011.6—99.495.0—70.038.255.698.7—90.570.075.745.8—100.0—100.0———93.258.350.0193000000000.047.70.30.840.3————76.516.035.2—99.413.554.654.0—91.386.786.592.0———8.7———3.50.3——0.40.2——————————89.2—0.777.958.00.6—————0.70.9—0.90.20.5
GPT-5 (high)71.574.771.580.086.775.841.660.344.636.094.30.90.90.30.80.41.01.00.90.70.80.30.8—89.290.084.51434.00.5——————0.5———95.7—————150.00.3—60.0—38.30.7——91.0————0.1——0.4—0.9—————————21.09.965.074.4——————51.349.0—63.2————62.7——80.769.6—————————96.3——63.165.739.6—————40.61586.0—60.791.7—81.315.1—1460.02537.05.7—88.394.0——40.041.897.0——68.075.656.7—94.6—94.6———88.472.470.0—48.00.50.725.2———86.078.6—35.238.199.41.0—35.2—90.087.0—92.041.3——————3.00.1——————1375.0—————57.7—84.9—0.854.955.00.81.0——1211.0—0.70.8—0.90.30.4
Kimi K2.5 (Reasoning)70.972.870.984.384.184.266.165.746.839.6——0.90.3—0.5———0.70.70.31.0—89.290.085.01450.0————————0.9———————2.7148.20.245.069.1———1423.9—92.0——————————————63.349.722.5-8.127.752.011.870.884.0—74.91430.0—————————39.830.0—95.8———————1.0————94.4——76.065.3—————37.0—1303.0406888.045.698.3——14.2——2350.0——95.495.084.2—62.0———86.6——46.8—96.1—96.0———87.684.977.7302000000000.061.40.10.328.0————77.918.050.2—98.08.8—43.2—91.387.178.590.6———————2.50.1———0.114.6—1415.0———————85.8—1.074.945.00.7———1247.0—0.7—1429.00.90.30.5
DeepSeek V3.2 Speciale70.671.270.685.389.094.176.9—29.437.996.70.90.90.30.90.4——1.00.60.60.30.0—93.388.088.7—————————————————————————————————————————————————76.0——————————————————————————————————56.4————————46.799.2—————2701.0——99.291.5———————————96.0—96.0———85.7—————————————30.683.398.09.4———94.487.5—89.2—————————————————————————0.0——0.6—————0.60.9—0.90.30.4
GPT-5.4 (xhigh)69.570.569.594.883.0——72.656.857.2——0.90.4—0.6———0.70.70.60.9————1468.00.5—————————59.1——83.043.4——156.10.4—80.30.353.9———————————0.4—0.9———————5.7—48.074.0————1392.0—————70.6—16.0———81.299.2———81.066.385.384.4—————96.1——88.193.7——————50.01328.0—57.4———7.0—————————75.057.7——————————————94.282.6327000000000.079.30.61.5————86.077.537.0—————75.1————————————3.40.7———0.0——1431.0——————83.593.0—0.9——0.7———1275.0—0.7—1474.00.90.40.6
GPT-5.3 Codex (xhigh)68.970.868.994.888.292.9—60.653.653.1——0.90.4—0.5———0.80.70.50.9——92.085.0————————————79.4—————155.9——72.8—54.7—1394.6—94.0—————————————————9.9—24.0—56.884.0——1407.0————————————————————————————80.2———————51.8——77.9————————99.0—93.0——64.756.8—————————94.0———81.087.880.1—62.7———————78.2———96.0——64.7————————————3.3————0.1————————————0.9——0.7—————0.8——0.90.40.5
Claude Opus 4.8 (Adaptive Reasoning, Max Effort)67.667.367.690.798.0——98.761.456.7——0.90.5—0.5———0.60.70.60.9————1477.0————————————————————————————————————————————27.4—95.072.1————1543.0—————82.2——————100.0————————————————92.5—————————82.9————————————————————64.8——————————1340000000000.0—2.32.7————83.6—44.0————————————————————————————————————0.9——0.7———1280.0—0.6—1472.00.90.50.5
Claude Fable 5 (Adaptive Reasoning, Max Effort, Opus 4.8 Fallback)67.567.867.593.5100.0——92.264.962.0——0.90.5—0.6———0.60.70.61.0————1510.0————————————————————————————————————————————40.1—56.0—————1665.0—————83.3—————————————————————————————————87.8———————————————————————————————————————88.6——————————————————————————————————————1.0——0.7———1307.0—0.6—1495.00.90.50.6
GPT-5.1 (high)67.169.967.186.878.585.346.962.547.744.794.00.90.90.30.90.4——0.90.70.80.50.8—91.7—82.01455.00.5————————————————149.7——72.0——0.6——90.0———————0.3—0.9—————————25.017.666.085.4——1340.0———48.049.3—63.4————76.0—————————————96.4——78.872.8———————1314.0—60.893.3——12.1—1464.0————————45.0————75.053.2———94.0———88.186.979.3—69.60.71.231.0———85.772.5—32.0—99.01.0—47.6—91.987.585.491.0———————2.80.2——————1430.0———————87.9—0.860.055.00.8———1250.0—0.70.91401.00.90.30.4
Kimi K2.5 (Non-reasoning)66.667.566.672.876.384.266.165.737.325.8——0.80.1—0.4———0.40.60.20.8—89.290.085.0—————————0.9———————2.7148.00.245.069.1—————92.0——————————————63.349.722.5-8.127.752.011.870.884.0—74.91442.0—————————39.830.0—————————————————76.065.3—————66.0——482783.045.698.3——14.2——2350.0——95.495.084.2—62.0———86.6——46.8—96.1—96.0———87.684.977.7558000000000.061.40.10.328.0————77.93.050.2—98.08.8—43.2—91.387.178.590.6———————2.50.1————14.6—————————85.8—0.874.945.00.6—————0.4——0.80.10.4
Qwen3.5 397B A17B (Reasoning)66.668.366.691.081.996.0—58.445.041.3——0.90.3—0.4———0.80.70.41.0——92.683.61444.0——————————————————————————88.6—————————————————-29.8—78.0—76.485.0——1395.0————————76.5———94.2————————————————————————1263.0————————2200.0———92.090.3——————————94.0—95.091.3——88.4—————————————32.0—98.0—————87.8—————————————————1412.0—————————1.0—35.00.7———1249.0—0.8——0.90.30.4
Gemini 2.5 Pro66.467.766.472.771.756.161.855.834.632.087.70.90.80.20.80.41.00.90.90.50.70.30.5—66.790.870.41446.00.6—0.0——1.4—0.30.60.0——63.3——68.8—146.70.252.958.30.0—0.43505.055.189.8————0.0——0.2—0.8—————————20.04.953.684.0——1204.0————————52.3—————86.266.5————88.0————93.1——70.837.059.6—————39.01259.0—54.090.0—83.17.071.71437.02001.02.0—82.5——83.1———24.084.870.0—51.6—92.0—86.7——90.884.068.375.5—51.60.50.810.0———84.375.7—18.831.697.30.5—32.6—58.185.6—84.925.3——8.6—4.2—1.90.038.550.00.3———1447.051.7————12.7—93.0—0.5—52.90.70.9——1246.01143.00.50.81420.00.80.20.4
Gemini 3 Pro Preview (low)66.366.666.384.889.855.887.7—41.339.486.70.90.90.30.90.5——0.90.50.70.30.7—————0.7—0.1——————0.0————17.9———0.4—73.40.254.10.99824.0—————————0.3—0.9—————————48.031.169.6—————————70.865.718.2————————————————————77.475.064.4———72.5—47.11307.0—69.9———13.6————————————————76.4————————81.884.6139000000000.074.40.50.819.0————74.617.0——————————————————3.00.3——0.50.1——————————86.4—0.7——0.7—————0.50.9—0.90.30.5
Qwen3.7 Max66.366.666.395.295.2——90.056.650.1——0.90.4—0.5———0.80.70.50.9————1474.0————————————————————————1524.7———————————————————14.1—71.0—————1534.0——————————————————————————————————————————————————————————————————————————————————————————————————————————————————————0.9——0.7—————0.8——0.90.40.5
Qwen3.5 397B A17B (Non-reasoning)66.167.666.181.888.896.0—58.440.137.4——0.90.2—0.4———0.50.60.40.8——92.683.6————————————————————35.0——————88.6—————————————————-29.8—78.0—76.485.0———————————76.5—————————————————————————————————————2200.0———92.090.3——————————94.0—95.091.3——88.4—————————————32.0—98.0—————87.8———————————————————————————0.8—35.00.6—————0.5——0.90.20.4
Grok 4.1 Fast (Reasoning)65.264.965.270.466.688.093.048.738.630.989.30.90.90.20.80.4——0.90.50.70.20.9—93.391.082.01431.0———————————————————55.033.5———3721.0———————————————————-28.7—19.042.079.0———1234.0————————————94.2————————————92.1——23.4—————69.6—————97.5——19.2—1483.02650.0———95.0——52.0———87.6——56.0———94.0———91.038.950.0488000000000.040.6——38.0———82.554.32.044.4—98.55.2———84.485.381.084.6———————2.6———————1410.0———————80.8—0.9—55.00.7———1196.0—0.50.8—0.90.20.4
GPT-5.5 (xhigh)64.865.764.896.894.1——82.260.259.1——0.90.4—0.6———0.80.70.60.9————1474.0—————————————————158.2———0.4——1494.7———————————————————20.1—47.085.0————1501.0—————75.3——————100.0————————————————95.0——————54.11328.0—83.9———9.3————————————————69.0——————————471000000000.0—0.71.9————86.5—9.0——————————————————3.60.8——————1430.0———————90.7—0.9——0.7———1283.0—0.8—1483.00.90.40.6
GPT-5.2 (Non-reasoning)63.964.463.963.476.680.967.863.533.634.751.00.80.70.10.70.4——0.50.50.40.30.5—95.895.080.01482.00.5—0.0————0.51.00.0—81.7—————153.80.3—48.90.138.30.61641.0—88.0————0.1—88.00.4—0.9———————-1.0—27.072.965.086.7——1472.0————————————————————————————42.894.5————55.9—43.8——60.798.3——10.8—1440.02800.011.6—99.495.0—70.038.255.698.7—90.570.075.745.8—100.0—100.0———93.258.350.0180000000000.047.711.439.040.3————76.59.035.2—99.413.554.654.0—91.386.786.592.0———8.7———3.50.0——0.40.0——————————89.2—0.577.958.00.4—————0.50.7—0.70.10.4
Low
High(normalized per column)Predicted