The Multivac — Ask any model, routed by evaluation

◈ MULTIVAC
OverviewEvaluationsLeaderboardModel PulseHistoryCompareExportAPI
Routing APIExport APISign in
Rankings
LeaderboardRanked by average peer-judged score · code
Allmeta alignmentreasoningcodeanalysiscommunicationedge cases
#ModelProviderAvgWinsEvalsBar
1Qwen 3.5 27B
reasoning: 8.82code: 9.53
openrouter9.5305
2Qwen 3.5 35B-A3B
code: 9.21reasoning: 9.16
openrouter9.2136
3Qwen 3 8B
reasoning: 9.08code: 9.19
openrouter9.19315
4Qwen 3 32B
code: 9.09reasoning: 9.29
openrouter9.09313
5Qwen 3.5 122B-A10B
code: 9.01reasoning: 9.82
openrouter9.0116
6Qwen 3.5 397B-A17B
code: 9.00reasoning: 9.95
openrouter9.0026
7Qwen 3 Coder Next
code: 8.98reasoning: 7.71
openrouter8.9806
8Gemma 3 27B
code: 8.88reasoning: 9.39
openrouter8.8829
9Phi-4 14B
code: 8.86reasoning: 9.01
openrouter8.8608
10Devstral Small
code: 8.75reasoning: 8.72
openrouter8.7509
11Llama 4 Scout
reasoning: 8.02code: 8.70
openrouter8.7009
12GPT-5.4
reasoning: 9.63code: 8.67
openrouter8.6757
13GPT-5.4
reasoning: 9.00analysis: 8.95code: 8.60
openrouter8.601032
14MiniMax M2.7
reasoning: 8.50code: 8.44
openrouter8.4416
15Granite 4.0 Micro
code: 8.39reasoning: 8.28
openrouter8.3909
16Kimi K2.5
code: 8.37reasoning: 9.24
openrouter8.3718
17Qwen 3.5 9B
reasoning: 7.48code: 8.35
openrouter8.3506
18Grok 4.20
analysis: 8.73meta alignment: 9.52communication: 9.04
openrouter8.30928
19Mistral Nemo 12B
reasoning: 8.69code: 8.26
openrouter8.2608
20Claude Sonnet 4.6
reasoning: 9.34code: 8.21
openrouter8.2107
21Gemini 3 Flash Preview
edge cases: 7.72code: 8.18meta alignment: 8.71
Google8.18442
22MiniMax M1
code: 8.13reasoning: 9.67
openrouter8.1307
23Grok Code Fast
code: 7.97
xAI7.97210
24GPT-5.2-Codex
code: 7.92edge cases: 7.76meta alignment: 8.34
OpenAI7.92410
25MiniMax-01
reasoning: 8.18code: 7.82
openrouter7.8217
26GPT-OSS-120B
code: 7.80communication: 9.05reasoning: 7.99
OpenAI7.80231
27Llama 3.1 8B
reasoning: 7.42code: 7.67
openrouter7.6708
28Grok 3 (Direct)
meta alignment: 9.52reasoning: 6.56code: 7.65
xAI7.65010
29Claude Opus 4.6
meta alignment: 9.55code: 7.64communication: 8.87
openrouter7.64332
30Claude Opus 4.5
analysis: 8.44code: 7.63communication: 9.24
Anthropic7.63210
31DeepSeek V4
reasoning: 7.70code: 7.57meta alignment: 9.54
openrouter7.57032
32MiMo-V2-Flash
edge cases: 7.61analysis: 8.63code: 7.53
Xiaomi7.53032
33Claude Sonnet 4.5
communication: 9.25analysis: 8.33edge cases: 7.73
Anthropic7.53110
34Claude Sonnet 4.6
meta alignment: 9.28code: 7.51communication: 8.94
openrouter7.51232
35DeepSeek V3.2
analysis: 8.74edge cases: 7.50reasoning: 6.54
DeepSeek7.42010
36MiniMax M2.1
reasoning: 9.29code: 7.17
openrouter7.1706
37MiniMax M2.5
reasoning: 8.13code: 6.75analysis: 8.62
openrouter6.75128
38Nemotron 3 Super
code: 5.41
openrouter5.4101
39MiniMax M2
code: 5.29reasoning: 9.69
MiniMax5.29015
40Gemini 3 Pro Preview
analysis: 7.69meta alignment: 7.79code: 5.01
Google5.01010
41Gemini 3.1 Pro
meta alignment: 8.93communication: 7.82reasoning: 5.46
openrouter4.64032
42Gemma 3n 4B
code: 3.68
openrouter3.6801
43GLM-4-7
code: 3.53communication: 8.67
Zhipu3.53110
43 models · peer-judged · self-judgments excluded