Benchmark explorer

Benchmarks

benchmark を 1 つ選び、その benchmark 内だけで base model families を比較します。 scores は source-linked evidence rows であり、全 benchmark 横断の leaderboard ではありません。

150 Benchmark labels
1,304 Model routes
12,935 Evidence rows

このページは cross-benchmark ranking を意図的に避けています。まず benchmark を選んでください。下の chart と table は、同じ raw benchmark label の rows だけを比較します。 rows は official model cards、launch posts、papers、benchmark operators などの source に紐づく evidence です。

SWE-bench VerifiedMMLUGPQA DiamondAider PolyglotMistral 7B comparison tableHumanEvalArtificial Analysis Coding IndexArtificial Analysis Intelligence Index

Benchmark results

選択した benchmark の results を表示します。

Loading...

Family Score Metric Category Scope Routes Source
Benchmark rows を読み込み中...