2026年 LLM API コスト比較:セルフホスティング vs クラウドプロバイダー

1日100万トークンの詳細コスト内訳
r/LocalLLaMAのユーザーが、2026年2月時点の標準的なチャット補完タスク(1日100万トークン、入力+出力)の価格データをまとめました。この比較には、3000万トークンあたりの月額コストと主要プロバイダーの詳細が含まれています。
プロバイダー別価格比較
- OpenAI GPT-4o: 100万入力トークンあたり5.00ドル / 100万出力トークンあたり15.00ドル(月額約300ドル)。データプライバシー: 米国拠点、データを学習に使用可能。セルフホスト不可。
- OpenAI GPT-4o-mini: 100万トークンあたり0.15ドル/0.60ドル(月額約12ドル)。GPT-4oと同じプライバシー条件。
- Anthropic Claude Sonnet: 100万トークンあたり3.00ドル/15.00ドル(月額約270ドル)。米国拠点、データを学習に使用しない。セルフホスト不可。
- Google Gemini 1.5 Pro: 100万トークンあたり3.50ドル/10.50ドル(月額約210ドル)。米国拠点、人間によるレビューあり。セルフホスト不可。
- Together AI Llama-3.1-70B: 100万トークンあたり0.88ドル/0.88ドル(月額約26ドル)。同社サーバーでホスト。
- Together AI Mistral-7B: 100万トークンあたり0.20ドル/0.20ドル(月額約6ドル)。同社サーバーでホスト。
- Fireworks Llama-3.1-70B: 100万トークンあたり0.90ドル/0.90ドル(月額約27ドル)。同社サーバーでホスト。
- PremAI ファインチューニング済みSLM: 100万トークンあたり約0.40ドル/0.40ドル(月額約12ドル)。スイス拠点、データ保持ゼロ、VPC展開可能。セルフホスト可。
- Replicate Llama-3.1-70B: 100万トークンあたり約0.65ドル/2.75ドル(月額約51ドル)。同社サーバーでホスト。
- AWS Bedrock Claude Sonnet: 100万トークンあたり3.00ドル/15.00ドル(月額約270ドル)。データはお客様のAWSアカウント内に保持。「ある程度」セルフホスト可能。
- セルフホスト(vLLM)Mistral-7B: 100万トークンあたり約0.05ドル(GPUコストのみ)(月額約1.50ドル+GPUレンタル)。完全なデータ制御。セルフホスト可。
分析からの主な発見
このスプレッドシートから、いくつかの実用的な知見が明らかになりました:
- OpenAIのGPT-4o-miniとTogetherのオープンソースモデルのコストは驚くほど近いです。GPT-4o-miniの料金を支払っている場合、TogetherでMistral-7Bを半額以下で実行できる可能性があります。
- セルフホストオプションはGPT-4oの約200分の1のコストです。GPUリソースと運用能力があれば、純粋なコスト面ではセルフホスティングが有利です。
- PremAIは低コスト、VPC展開、ファインチューニングを1つのプラットフォームで提供する独自の組み合わせを提供しています。スイス拠点のプライバシー主張と暗号化は、アーキテクチャ文書に基づき正当であると思われます。
- AnthropicとOpenAIのプレミアムモデルは、Together/Fireworks経由のオープンソース代替品よりも約10倍高価です。本当に最先端モデルの品質が必要でない限り、過剰な支払いをしている可能性があります。
- 価格設定の複雑さは依然として課題です: 異なる入力/出力トークンレート、最小コミットメント、別途のファインチューニング料金により、比較が困難です。この分析のまとめには丸1日かかりました。
すべての価格は概算であり、2026年2月時点で確認されています。一部のプロバイダーは、この比較に反映されていないボリュームディスカウントを提供しています。
📖 完全なソースを読む: r/LocalLLaMA
👀 See Also

スーパーマイクロ共同創業者を含む3名、AI技術輸出事件で起訴される
スーパーマイクロコンピュータの共同創業者チャールズ・リアンを含む3名が、米国当局により、AI技術を中国へ違法に輸出する計画を企てたとして起訴されました。この事件は、輸出管理法違反の疑いが含まれています。

開発者はClaude禁止とMiMoクレジット問題の後、Minimax 2.7に切り替えました
ある開発者が、Claudeがプラットフォームから禁止された後、OpenClaw用の代替AIモデルを複数テストした経験を共有しました。エージェント的なタスクや自動化にはGLM 5.1と5 Turboが無効で、MiMo V2 Proのクレジットシステムは非効率と判断し、最終的に寛大なクォータと自動化タスク処理能力からMinimax 2.7を選択しました。

Claude Code 事後報告:品質低下の原因となった3つのバグ、現在は修正済み
Anthropicは、最近のClaude Codeの品質に関する苦情が、デフォルトの推論努力の低下、キャッシュバグによるセッションメモリの喪失、および冗長性プロンプトによるコーディング品質の低下という3つの別々の変更に起因することを明らかにしました。これらはすべて4月20日(v2.1.116)時点で修正されています。

OpenClawの貢献者が、プロジェクトが現代的な機能よりもピクセル単位の完全な互換性に重点を置いていることを批判しています
r/openclawからのReddit投稿によると、解像度スケーリングと高リフレッシュレート対応を扱ったコントリビューターのプルリクエストが、オリジナルエンジンの視覚的制約から逸脱しているとして却下され、プロジェクトの方向性について議論が巻き起こっています。