← 記事一覧へ戻る

Data-led article

2,100-token RAG context で安い LLM API models

RAG の API cost は、user question よりも retrieved context の大きさに左右されやすくなります。 このページでは 1 つの狭い workload に固定し、100 question tokens、2,000 retrieved context tokens、500 answer tokens、月間 10,000 questions で見積もります。

Updated June 6, 2026 2.1K input tokens 500 output tokens 10.0K questions / month

Scenario

このページで見積もる RAG workload

数値は、このサイトの current checked-in data から生成しています。Provider billing は cache、discounts、region、tier、provider-specific billing rules によって変わる場合があります。

Question
100

短い user request を想定します。

Retrieved context
2.0K

回答の根拠として毎回 model に渡す text です。

Answer
500

生成される response length です。

Monthly volume
10.0K

月間の RAG questions として見積もります。

Cost screen

この workload で低コストな context-ready chat routes

Rows は estimated monthly API cost の安い順です。少なくとも 2.1K の listed context window がある priced chat routes だけを表示します。

Model Context Input / 1M Output / 1M Monthly cost
Qwen2.5-Coder-7B
nebius
32.8K $0.0100 / 1M tokens $0.0300 / 1M tokens $0.36
llama3.2-11b-vision-instruct
lambda_ai
131.1K $0.0150 / 1M tokens $0.0250 / 1M tokens $0.44
llama3.2-3b-instruct
lambda_ai
131.1K $0.0150 / 1M tokens $0.0250 / 1M tokens $0.44
Llama-3.2-3B-Instruct
deepinfra
131.1K $0.0200 / 1M tokens $0.0200 / 1M tokens $0.52
paddleocr-vl
novita
16.4K $0.0200 / 1M tokens $0.0200 / 1M tokens $0.52
Meta-Llama-3.1-8B-Instruct-Turbo
deepinfra
131.1K $0.0200 / 1M tokens $0.0300 / 1M tokens $0.57
Mistral-Nemo-Instruct-2407
deepinfra
131.1K $0.0200 / 1M tokens $0.0400 / 1M tokens $0.62
llama-3.1-8b-instruct
novita
16.4K $0.0200 / 1M tokens $0.0500 / 1M tokens $0.67

#1 nebius

Qwen2.5-Coder-7B

この workload では、estimated monthly API cost は $0.36 です。 Listed context window は 32.8K です。

Model details を開く

#2 lambda_ai

llama3.2-11b-vision-instruct

この workload では、estimated monthly API cost は $0.44 です。 Listed context window は 131.1K です。

Model details を開く

#3 lambda_ai

llama3.2-3b-instruct

この workload では、estimated monthly API cost は $0.44 です。 Listed context window は 131.1K です。

Model details を開く

retrieved context の量を変えてから選ぶ

RAG の最安候補は、retrieved context が短い passage か、長い document bundle かで変わります。 RAG calculator で question、context、answer、monthly volume を変えてから、candidate routes を比較してください。

Caveats

このページだけでは決めないこと

このページは retrieval quality、answer grounding、citation behavior、latency、safety behavior、rate limits、prompt caching、discounts、regional pricing、provider-specific add-on charges を ranking しません。 Cost-first の shortlist として使い、自分の retrieved passages で test し、final pricing は provider 側でも確認してください。