← 記事一覧へ戻る

Data-led article

500-token chatbot workload で安い LLM API chat models

Support chatbot の API cost は、coding agent や long-context RAG と違う形になります。 このページでは 1 つの狭い workload に固定し、500 input tokens、300 output tokens、1 user あたり 100 messages、月間 1,000 users で見積もります。

Updated June 6, 2026 500 input / 300 output tokens 100,000 monthly messages

Scenario

このページで見積もる chatbot workload

数値は、このサイトの current checked-in data から生成しています。Provider billing は cache、discounts、region、tier、provider-specific billing rules によって変わる場合があります。

Input / message
500 tokens

短い user message と recent chat context を想定します。

Output / message
300 tokens

Support answer や product answer として短く返す想定です。

Messages / user
100

月内に繰り返し使われる support workload として見ます。

Monthly users
1,000

合計 100,000 messages です。

Cost screen

この workload で低コストな priced chat routes

Rows は estimated monthly API cost の安い順です。Production candidate として扱う前に、各 model page と provider 側の pricing を確認してください。

Model Context Input / 1M Output / 1M Monthly cost
Qwen2.5-Coder-3B-Instruct
nscale
N/A $0.0100 / 1M tokens $0.0300 / 1M tokens $1.40
Qwen2.5-Coder-7B-Instruct
nscale
N/A $0.0100 / 1M tokens $0.0300 / 1M tokens $1.40
Qwen2.5-Coder-7B
nebius
32.8K $0.0100 / 1M tokens $0.0300 / 1M tokens $1.40
llama3.2-11b-vision-instruct
lambda_ai
131.1K $0.0150 / 1M tokens $0.0250 / 1M tokens $1.50
llama3.2-3b-instruct
lambda_ai
131.1K $0.0150 / 1M tokens $0.0250 / 1M tokens $1.50
Llama-3.2-3B-Instruct
deepinfra
131.1K $0.0200 / 1M tokens $0.0200 / 1M tokens $1.60
paddleocr-vl
novita
16.4K $0.0200 / 1M tokens $0.0200 / 1M tokens $1.60
Meta-Llama-3.1-8B-Instruct-Turbo
deepinfra
131.1K $0.0200 / 1M tokens $0.0300 / 1M tokens $1.90

nscale

Qwen2.5-Coder-3B-Instruct

この workload では、estimated monthly API cost は $1.40 です。 Listed context window は N/A です。

Model details を開く

nscale

Qwen2.5-Coder-7B-Instruct

この workload では、estimated monthly API cost は $1.40 です。 Listed context window は N/A です。

Model details を開く

nebius

Qwen2.5-Coder-7B

この workload では、estimated monthly API cost は $1.40 です。 Listed context window は 32.8K です。

Model details を開く

Route を選ぶ前に workload を変えて試す

Chatbot の context が長い、output が長い、session volume が少ない場合は、calculator で token counts を変えて見積もり直してください。

Caveats

この比較だけでは判断できないこと

このページは answer quality、latency、safety behavior、tool calling、multilingual coverage、rate limits を ranking しません。 低コストな chat route の中には、specialized、gated、または一般的な support chatbot に向かないものがあります。 価格の shortlist として使い、実際の model route を test し、最終 pricing は provider 側で確認してください。