2026年 LLM API コスト比較：セルフホスティング vs クラウド

1日100万トークンの詳細コスト内訳

r/LocalLLaMAのユーザーが、2026年2月時点の標準的なチャット補完タスク（1日100万トークン、入力＋出力）の価格データをまとめました。この比較には、3000万トークンあたりの月額コストと主要プロバイダーの詳細が含まれています。

プロバイダー別価格比較

OpenAI GPT-4o: 100万入力トークンあたり5.00ドル / 100万出力トークンあたり15.00ドル（月額約300ドル）。データプライバシー: 米国拠点、データを学習に使用可能。セルフホスト不可。
OpenAI GPT-4o-mini: 100万トークンあたり0.15ドル/0.60ドル（月額約12ドル）。GPT-4oと同じプライバシー条件。
Anthropic Claude Sonnet: 100万トークンあたり3.00ドル/15.00ドル（月額約270ドル）。米国拠点、データを学習に使用しない。セルフホスト不可。
Google Gemini 1.5 Pro: 100万トークンあたり3.50ドル/10.50ドル（月額約210ドル）。米国拠点、人間によるレビューあり。セルフホスト不可。
Together AI Llama-3.1-70B: 100万トークンあたり0.88ドル/0.88ドル（月額約26ドル）。同社サーバーでホスト。
Together AI Mistral-7B: 100万トークンあたり0.20ドル/0.20ドル（月額約6ドル）。同社サーバーでホスト。
Fireworks Llama-3.1-70B: 100万トークンあたり0.90ドル/0.90ドル（月額約27ドル）。同社サーバーでホスト。
PremAI ファインチューニング済みSLM: 100万トークンあたり約0.40ドル/0.40ドル（月額約12ドル）。スイス拠点、データ保持ゼロ、VPC展開可能。セルフホスト可。
Replicate Llama-3.1-70B: 100万トークンあたり約0.65ドル/2.75ドル（月額約51ドル）。同社サーバーでホスト。
AWS Bedrock Claude Sonnet: 100万トークンあたり3.00ドル/15.00ドル（月額約270ドル）。データはお客様のAWSアカウント内に保持。「ある程度」セルフホスト可能。
セルフホスト（vLLM）Mistral-7B: 100万トークンあたり約0.05ドル（GPUコストのみ）（月額約1.50ドル＋GPUレンタル）。完全なデータ制御。セルフホスト可。

分析からの主な発見

このスプレッドシートから、いくつかの実用的な知見が明らかになりました:

OpenAIのGPT-4o-miniとTogetherのオープンソースモデルのコストは驚くほど近いです。GPT-4o-miniの料金を支払っている場合、TogetherでMistral-7Bを半額以下で実行できる可能性があります。
セルフホストオプションはGPT-4oの約200分の1のコストです。GPUリソースと運用能力があれば、純粋なコスト面ではセルフホスティングが有利です。
PremAIは低コスト、VPC展開、ファインチューニングを1つのプラットフォームで提供する独自の組み合わせを提供しています。スイス拠点のプライバシー主張と暗号化は、アーキテクチャ文書に基づき正当であると思われます。
AnthropicとOpenAIのプレミアムモデルは、Together/Fireworks経由のオープンソース代替品よりも約10倍高価です。本当に最先端モデルの品質が必要でない限り、過剰な支払いをしている可能性があります。
価格設定の複雑さは依然として課題です: 異なる入力/出力トークンレート、最小コミットメント、別途のファインチューニング料金により、比較が困難です。この分析のまとめには丸1日かかりました。

すべての価格は概算であり、2026年2月時点で確認されています。一部のプロバイダーは、この比較に反映されていないボリュームディスカウントを提供しています。

📖 完全なソースを読む: r/LocalLLaMA