← Quay lại danh mục
The Multivac logo

The Multivac

Which LLM thinks best? Blind peer-judged leaderboard.

4.5(10,000 đánh giá)
Freemium
Ra mắt năm 2026

Sobre

Most LLM leaderboards are static, gameable, or judged by a single model. The Multivac runs a 10×10 blind peer matrix: every frontier model answers, then judges every other model's answer without knowing whose it is. What you get is a ranking of reasoning quality, not memorized benchmarks. Features: Ask Multivac (live multi-model answers + share pages), Model Pulse heatmap, head-to-head Compare, full data export, and an open-source evaluation engine (MIT).

Ưu điểm

  • +Ranking de qualidade de razão sem memorização de benchmarks
  • +Matriz de avaliação em 10x10 com modelos fronteira
  • +Comparação direta entre modelos

Nhược điểm

  • Limitações de escalabilidade para grandes volumes de dados
  • Dependência de modelos de linguagem de máquina (LLM)