← 記事一覧へ戻る

Data-led article

10k-token document summarization で安い LLM API models

Summarization workload は、多くの場合 input-heavy です。Model は長い document を読み、短い summary を返します。 このページでは 1 つの狭い workload に固定し、10,000 input tokens、500 output tokens、月間 1,000 documents で見積もります。

Updated June 6, 2026 10.0K input tokens 500 output tokens 1.0K documents / month

Scenario

このページで見積もる summarization workload

数値は、このサイトの current checked-in data から生成しています。Provider billing は cache、discounts、region、tier、provider-specific billing rules によって変わる場合があります。

Document
10.0K input tokens

長い document を model に読ませる想定です。

Summary
500 output tokens

短い要約として返す output length です。

Monthly volume
1.0K documents

月間の batch / product workload として見積もります。

Cost screen

この workload で低コストな priced chat routes

Rows は estimated monthly API cost の安い順です。Production candidate として扱う前に、各 model page と provider 側の pricing を確認してください。

Model Input / 1M Output / 1M Monthly cost
Qwen2.5-Coder-3B-Instruct
nscale
$0.0100 / 1M tokens $0.0300 / 1M tokens $0.12
Qwen2.5-Coder-7B-Instruct
nscale
$0.0100 / 1M tokens $0.0300 / 1M tokens $0.12
Qwen2.5-Coder-7B
nebius
$0.0100 / 1M tokens $0.0300 / 1M tokens $0.12
llama3.2-11b-vision-instruct
lambda_ai
$0.0150 / 1M tokens $0.0250 / 1M tokens $0.16
llama3.2-3b-instruct
lambda_ai
$0.0150 / 1M tokens $0.0250 / 1M tokens $0.16
Llama-3.2-3B-Instruct
deepinfra
$0.0200 / 1M tokens $0.0200 / 1M tokens $0.21
paddleocr-vl
novita
$0.0200 / 1M tokens $0.0200 / 1M tokens $0.21
Meta-Llama-3.1-8B-Instruct-Turbo
deepinfra
$0.0200 / 1M tokens $0.0300 / 1M tokens $0.22

#1 nscale

Qwen2.5-Coder-3B-Instruct

この workload では、estimated monthly API cost は $0.12 です。 Input は $0.0100 / 1M tokens / 1M、output は $0.0300 / 1M tokens / 1M です。

Model details を開く

#2 nscale

Qwen2.5-Coder-7B-Instruct

この workload では、estimated monthly API cost は $0.12 です。 Input は $0.0100 / 1M tokens / 1M、output は $0.0300 / 1M tokens / 1M です。

Model details を開く

#3 nebius

Qwen2.5-Coder-7B

この workload では、estimated monthly API cost は $0.12 です。 Input は $0.0100 / 1M tokens / 1M、output は $0.0300 / 1M tokens / 1M です。

Model details を開く

document length を変えてから選ぶ

2,000-token の note と 50,000-token の transcript では、最安候補が変わることがあります。 Summarization calculator で token counts を変えてから、candidate routes を比較してください。

Caveats

このページだけでは決めないこと

このページは summary quality、factuality、citation behavior、latency、rate limits、prompt caching、discounts、regional pricing、provider-specific add-on charges を ranking しません。 Cost-first の shortlist として使い、自分の documents で test し、final pricing は provider 側でも確認してください。