2,100 token の RAG 文脈で安い LLM API モデル

シナリオ

このページで見積もる RAG 条件

数値は、このサイトの現在の価格データから生成しています。請求額は、キャッシュ、割引、リージョン、利用量ティア、提供元ごとの課金ルールによって変わる場合があります。

質問

100

短いユーザー質問を想定します。

検索で渡す文脈

2.0K

回答の根拠として毎回モデルに渡すテキストです。

回答

500

生成される回答の長さです。

月間件数

10.0K

月間の RAG 質問数として見積もります。

コスト確認

この条件で低コストな文脈対応チャットルート

表は月間 API コスト見積もりの安い順です。少なくとも 2.1K の掲載コンテキスト上限がある価格付きチャットルートだけを表示します。

モデル	コンテキスト	入力 / 100万token	出力 / 100万token	月額コスト
Qwen2.5-Coder-7B nebius	32.8K	$0.0100 / 1M tokens	$0.0300 / 1M tokens	$0.36
llama3.2-11b-vision-instruct lambda_ai	131.1K	$0.0150 / 1M tokens	$0.0250 / 1M tokens	$0.44
llama3.2-3b-instruct lambda_ai	131.1K	$0.0150 / 1M tokens	$0.0250 / 1M tokens	$0.44
Llama-3.2-3B-Instruct deepinfra	131.1K	$0.0200 / 1M tokens	$0.0200 / 1M tokens	$0.52
paddleocr-vl novita	16.4K	$0.0200 / 1M tokens	$0.0200 / 1M tokens	$0.52
Meta-Llama-3.1-8B-Instruct-Turbo deepinfra	131.1K	$0.0200 / 1M tokens	$0.0300 / 1M tokens	$0.57
Mistral-Nemo-Instruct-2407 deepinfra	131.1K	$0.0200 / 1M tokens	$0.0400 / 1M tokens	$0.62
gpt-oss-20b Darkbloom	32.8K	$0.0145 / 1M tokens	$0.0700 / 1M tokens	$0.65

#1 nebius

Qwen2.5-Coder-7B

この条件での推定月額 API コストは $0.36 です。掲載コンテキスト上限は 32.8K です。

モデル詳細を開く

#2 lambda_ai

llama3.2-11b-vision-instruct

この条件での推定月額 API コストは $0.44 です。掲載コンテキスト上限は 131.1K です。

モデル詳細を開く

#3 lambda_ai

llama3.2-3b-instruct

この条件での推定月額 API コストは $0.44 です。掲載コンテキスト上限は 131.1K です。

モデル詳細を開く

近い使い方と見比べる

RAG は検索で渡す文脈量でコストが変わります。短いチャットボット、文書要約、コーディングエージェントと並べると、token の使い方の違いが見えやすくなります。

検索で渡す文脈の量を変えてから選ぶ

RAG の最安候補は、検索で渡す文脈が短い passage か、長い document bundle かで変わります。 RAG 計算機で質問、文脈、回答、月間件数を変えてから、候補ルートを比較してください。

RAG 計算機を開く上位3件を比較

注意点

このページだけでは決めないこと

このページは検索品質、回答の根拠付け、引用の挙動、レイテンシ、安全性の挙動、レート制限、プロンプトキャッシュ、割引、リージョン別料金、提供元ごとの追加料金を順位付けしません。コスト優先の候補リストとして使い、自分の検索結果パッセージで試したうえで、最終的な料金は提供元でも確認してください。

2,100 token の RAG 文脈で安い LLM API モデル

このページで見積もる RAG 条件

この条件で低コストな文脈対応チャットルート

Qwen2.5-Coder-7B

llama3.2-11b-vision-instruct

llama3.2-3b-instruct

近い使い方と見比べる

500 token のチャットボット

10k token 文書の要約

7k 入力のコーディングエージェント

検索で渡す文脈の量を変えてから選ぶ

このページだけでは決めないこと