#1 nscale
Qwen2.5-Coder-3B-Instruct
この workload では、estimated monthly API cost は $0.12 です。 Input は $0.0100 / 1M tokens / 1M、output は $0.0300 / 1M tokens / 1M です。
Model details を開くData-led article
Summarization workload は、多くの場合 input-heavy です。Model は長い document を読み、短い summary を返します。 このページでは 1 つの狭い workload に固定し、10,000 input tokens、500 output tokens、月間 1,000 documents で見積もります。
Scenario
数値は、このサイトの current checked-in data から生成しています。Provider billing は cache、discounts、region、tier、provider-specific billing rules によって変わる場合があります。
長い document を model に読ませる想定です。
短い要約として返す output length です。
月間の batch / product workload として見積もります。
Cost screen
Rows は estimated monthly API cost の安い順です。Production candidate として扱う前に、各 model page と provider 側の pricing を確認してください。
| Model | Input / 1M | Output / 1M | Monthly cost |
|---|---|---|---|
| Qwen2.5-Coder-3B-Instruct nscale | $0.0100 / 1M tokens | $0.0300 / 1M tokens | $0.12 |
| Qwen2.5-Coder-7B-Instruct nscale | $0.0100 / 1M tokens | $0.0300 / 1M tokens | $0.12 |
| Qwen2.5-Coder-7B nebius | $0.0100 / 1M tokens | $0.0300 / 1M tokens | $0.12 |
| llama3.2-11b-vision-instruct lambda_ai | $0.0150 / 1M tokens | $0.0250 / 1M tokens | $0.16 |
| llama3.2-3b-instruct lambda_ai | $0.0150 / 1M tokens | $0.0250 / 1M tokens | $0.16 |
| Llama-3.2-3B-Instruct deepinfra | $0.0200 / 1M tokens | $0.0200 / 1M tokens | $0.21 |
| paddleocr-vl novita | $0.0200 / 1M tokens | $0.0200 / 1M tokens | $0.21 |
| Meta-Llama-3.1-8B-Instruct-Turbo deepinfra | $0.0200 / 1M tokens | $0.0300 / 1M tokens | $0.22 |
#1 nscale
この workload では、estimated monthly API cost は $0.12 です。 Input は $0.0100 / 1M tokens / 1M、output は $0.0300 / 1M tokens / 1M です。
Model details を開く#2 nscale
この workload では、estimated monthly API cost は $0.12 です。 Input は $0.0100 / 1M tokens / 1M、output は $0.0300 / 1M tokens / 1M です。
Model details を開く#3 nebius
この workload では、estimated monthly API cost は $0.12 です。 Input は $0.0100 / 1M tokens / 1M、output は $0.0300 / 1M tokens / 1M です。
Model details を開く2,000-token の note と 50,000-token の transcript では、最安候補が変わることがあります。 Summarization calculator で token counts を変えてから、candidate routes を比較してください。
Caveats
このページは summary quality、factuality、citation behavior、latency、rate limits、prompt caching、discounts、regional pricing、provider-specific add-on charges を ranking しません。 Cost-first の shortlist として使い、自分の documents で test し、final pricing は provider 側でも確認してください。