The Multivac — Ask any model, routed by evaluation

◈ MULTIVAC
OverviewEvaluationsLeaderboardModel PulseHistoryCompareExportAPI
Routing APIExport APISign in
Rankings
LeaderboardRanked by average peer-judged score · analysis
Allmeta alignmentreasoningcodeanalysiscommunicationedge cases
#ModelProviderAvgWinsEvalsBar
1GPT-5.4
reasoning: 9.00analysis: 8.95code: 8.60
openrouter8.951239
2DeepSeek V3.2
analysis: 8.74edge cases: 7.50reasoning: 6.54
DeepSeek8.74010
3Grok 4.20
analysis: 8.73meta alignment: 9.52communication: 9.04
openrouter8.731039
4MiMo-V2-Flash
edge cases: 7.61analysis: 8.63code: 7.53
Xiaomi8.631049
5MiniMax M2.5
reasoning: 8.13code: 6.75analysis: 8.62
openrouter8.62232
6Gemini 3 Flash Preview
edge cases: 7.72code: 8.18meta alignment: 8.71
Google8.57249
7Claude Opus 4.5
analysis: 8.44code: 7.63communication: 9.24
Anthropic8.44110
8Claude Opus 4.6
meta alignment: 9.55code: 7.64communication: 8.87
openrouter8.43239
9Claude Sonnet 4.6
meta alignment: 9.28code: 7.51communication: 8.94
openrouter8.39439
10GPT-OSS-120B
code: 7.80communication: 9.05reasoning: 7.99
OpenAI8.33649
11Claude Sonnet 4.5
communication: 9.25analysis: 8.33edge cases: 7.73
Anthropic8.33010
12DeepSeek V4
reasoning: 7.70code: 7.57meta alignment: 9.54
openrouter8.32039
13GPT-OSS-Legal
analysis: 8.31
OpenAI8.31010
14Grok 4.1 Fast
edge cases: 7.78analysis: 8.28communication: 9.15
xAI8.28010
15Gemini 2.5 Flash
reasoning: 5.93communication: 8.93analysis: 8.26
Google8.26010
16Gemini 3 Pro Preview
analysis: 7.69meta alignment: 7.79code: 5.01
Google7.69010
17Gemini 3.1 Pro
meta alignment: 8.93communication: 7.82reasoning: 5.46
openrouter6.82039
17 models · peer-judged · self-judgments excluded