#1 nebius
Qwen2.5-Coder-7B
この workload では、estimated monthly API cost は $0.36 です。 Listed context window は 32.8K です。
Model details を開くData-led article
RAG の API cost は、user question よりも retrieved context の大きさに左右されやすくなります。 このページでは 1 つの狭い workload に固定し、100 question tokens、2,000 retrieved context tokens、500 answer tokens、月間 10,000 questions で見積もります。
Scenario
数値は、このサイトの current checked-in data から生成しています。Provider billing は cache、discounts、region、tier、provider-specific billing rules によって変わる場合があります。
短い user request を想定します。
回答の根拠として毎回 model に渡す text です。
生成される response length です。
月間の RAG questions として見積もります。
Cost screen
Rows は estimated monthly API cost の安い順です。少なくとも 2.1K の listed context window がある priced chat routes だけを表示します。
| Model | Context | Input / 1M | Output / 1M | Monthly cost |
|---|---|---|---|---|
| Qwen2.5-Coder-7B nebius | 32.8K | $0.0100 / 1M tokens | $0.0300 / 1M tokens | $0.36 |
| llama3.2-11b-vision-instruct lambda_ai | 131.1K | $0.0150 / 1M tokens | $0.0250 / 1M tokens | $0.44 |
| llama3.2-3b-instruct lambda_ai | 131.1K | $0.0150 / 1M tokens | $0.0250 / 1M tokens | $0.44 |
| Llama-3.2-3B-Instruct deepinfra | 131.1K | $0.0200 / 1M tokens | $0.0200 / 1M tokens | $0.52 |
| paddleocr-vl novita | 16.4K | $0.0200 / 1M tokens | $0.0200 / 1M tokens | $0.52 |
| Meta-Llama-3.1-8B-Instruct-Turbo deepinfra | 131.1K | $0.0200 / 1M tokens | $0.0300 / 1M tokens | $0.57 |
| Mistral-Nemo-Instruct-2407 deepinfra | 131.1K | $0.0200 / 1M tokens | $0.0400 / 1M tokens | $0.62 |
| llama-3.1-8b-instruct novita | 16.4K | $0.0200 / 1M tokens | $0.0500 / 1M tokens | $0.67 |
#1 nebius
この workload では、estimated monthly API cost は $0.36 です。 Listed context window は 32.8K です。
Model details を開く#2 lambda_ai
この workload では、estimated monthly API cost は $0.44 です。 Listed context window は 131.1K です。
Model details を開く#3 lambda_ai
この workload では、estimated monthly API cost は $0.44 です。 Listed context window は 131.1K です。
Model details を開くRAG の最安候補は、retrieved context が短い passage か、長い document bundle かで変わります。 RAG calculator で question、context、answer、monthly volume を変えてから、candidate routes を比較してください。
Caveats
このページは retrieval quality、answer grounding、citation behavior、latency、safety behavior、rate limits、prompt caching、discounts、regional pricing、provider-specific add-on charges を ranking しません。 Cost-first の shortlist として使い、自分の retrieved passages で test し、final pricing は provider 側でも確認してください。