← 記事一覧に戻る

料金ガイド

LLM API キャッシュ・バッチ料金ガイド: ヘッドライン価格だけでは足りない場合

入力・出力トークン単価は引き続きベースラインです。しかし、繰り返しコンテキスト、遅延処理、オプションの処理ティアによって、実際のコストチェックはキャッシュ済み入力、キャッシュ書き込み、バッチ、優先処理、フレックスの行に移動します。

更新日: 2026年6月19日 キャッシュ・バッチ料金 計算機・比較ページと連携

判断フロー

ワークロードのタイミングから始めます

ヘッドラインのトークン単価が低いことが、最適な本番構成とは限りません。ワークロードが対話的、繰り返し、オフライン、処理ティアに紐づくかをまず判断します。

ワークロードパターン 確認する料金行 次のステップ
1 件ずつ対話的なリクエスト 入力・出力トークン 月間リクエスト形状を計算機で見積もります。
同じ指示・文書・システムコンテキストの繰り返し利用 キャッシュ済み入力・キャッシュ書き込み キャッシュ再利用プリセットから始めて、ヒット率を変更します。
オフライン分析や待ち時間のあるバッチジョブ バッチ入力・バッチ出力 バッチ対応モデルを比較ページで確認します。
レイテンシや処理ティアの選択 優先処理・フレックス入出力 標準価格の横に表示される処理ティア行を比較します。

計算機

繰り返しコンテキストが見込まれる場合はキャッシュ再利用プリセットを使います

計算機には 8k 入力トークン、1k 出力トークン、月間 5,000 リクエスト、キャッシュヒット率 50% のキャッシュ再利用プリセットが含まれています。これは出発点であり、プロバイダからの約束ではありません。

選択したモデルがキャッシュ済み入力価格を公開している場合、計算機はキャッシュ共有にその行を使います。非公開の場合は通常の入力価格にフォールバックし、シナリオは保守的な第 1 次見積もりを維持します。

キャッシュ確認ポイント

  • 繰り返すテキストはプロバイダのキャッシュ要件を満たしていますか?
  • キャッシュ書き込み価格とキャッシュヒット価格は別々ですか?
  • キャッシュが繰り返しリクエストが到着する前に期限切れになりますか?

比較

計算機がまだモデリングしていない行は比較ページで確認します

比較ページは、単一の月間計算機シナリオで表現できるよりも多くの料金次元を表示します。キャッシュ済み入力、キャッシュ書き込み、バッチ入力、バッチ出力、優先入出力、フレックス入出力を、通常のトークン価格の横で確認します。

2 つのモデルが標準入出力コストでは似ているが、ワークロード向けに安価な非同期またはキャッシュ対応パスを一方が公開している場合に特に役立ちます。

見逃さないこと

バッチ・キャッシュ行はプロバイダドキュメントの代替ではありません。資格要件、レート制限、保持期間、レイテンシ、請求挙動を確認してから、ルートを本番対応として扱ってください。

プロバイダドキュメント

推定を信頼する前にプロバイダルールを確認します

OpenAI

キャッシュ済み入力、Batch API、優先処理、フレックスの各行を料金ページで確認し、プロンプトキャッシュガイドで資格要件とトークン報告を確認します。

Anthropic

キャッシュ書き込み、キャッシュヒット、バッチ、長コンテキストの注意点を、Claude ワークロードの見積もり前に確認します。

Gemini

コンテキストキャッシュのトークン価格、ストレージ価格、キャッシュ TTL の挙動を、繰り返しコンテキストワークロードの見積もり前に確認します。

制限事項

このガイドが判断しないこと

このガイドはモデル品質、レイテンシ、クォータ、リージョン可用性、ツール利用料、アカウント割引、最終請求書をランキング付けしません。 また、あらゆるプロンプトのキャッシュ資格を保証しません。適切な料金行の選択に使い、プロバイダと本番契約を確認してください。