ベンチマーク探索

ベンチマーク

ベンチマークを 1 つ選び、その同じラベルの中だけでモデル系列を比較します。スコアは出典に紐づく証拠行であり、全ベンチマーク横断の順位表ではありません。

154 ベンチマークラベル

1,323 モデルルート

13,050 証拠行

このページはベンチマークをまたいだ順位付けを意図的に避けています。まずベンチマークを選んでください。下のグラフと表は、同じ元ベンチマークラベルの行だけを比較します。各行は公式モデルカード、発表記事、論文、ベンチマーク運営者などの出典に紐づく証拠です。ベンチマーク行は 2026/07/13 に生成されたカタログを使っています。

SWE-bench Verified MMLU GPQA Diamond Aider Polyglot Mistral 7B comparison table HumanEval Artificial Analysis Coding Index Artificial Analysis Intelligence Index

ベンチマーク結果

選択したベンチマークの結果を表示します。

読み込み中...

モデル系列	スコア	指標	カテゴリ	範囲	ルート	出典
ベンチマーク行を読み込み中...