ベンチマーク探索

ベンチマーク

ベンチマークを 1 つ選び、その同じラベルの中だけでモデル系列を比較します。 スコアは出典に紐づく証拠行であり、全ベンチマーク横断の順位表ではありません。

150 ベンチマークラベル
1,304 モデルルート
12,935 証拠行

このページはベンチマークをまたいだ順位付けを意図的に避けています。まずベンチマークを選んでください。下のグラフと表は、同じ元ベンチマークラベルの行だけを比較します。 各行は公式モデルカード、発表記事、論文、ベンチマーク運営者などの出典に紐づく証拠です。

SWE-bench VerifiedMMLUGPQA DiamondAider PolyglotMistral 7B comparison tableHumanEvalArtificial Analysis Coding IndexArtificial Analysis Intelligence Index

ベンチマーク結果

選択したベンチマークの結果を表示します。

読み込み中...

モデル系列 スコア 指標 カテゴリ 範囲 ルート 出典
ベンチマーク行を読み込み中...