Anthropic vs OpenAI：高速LLM推論モードの比較

AnthropicとOpenAIは最近、言語モデルの推論速度を向上させる「高速モード」機能を導入しました。これらのモードは、コーディングモデルとの対話時にトークン毎秒レートを大幅に改善しますが、アプローチと能力には大きな違いがあります。

主要な詳細

Anthropicの高速モードは最大2.5倍のトークン毎秒を実現し、Opus 4.6の65トークンから約170トークンへと増加します。この向上は、小規模バッチサイズの推論を優先することで達成されています。ここでのトレードオフは、バッチサイズを小さくすることでデータ処理が速くなる（満員になるのを待たずにすぐに出発するバスシステムに似ています）ため、より速い応答に対してより多くのコスト（6倍）を支払うことです。ただし、このモードは実際のOpus 4.6モデル上で実行されます。

一方、OpenAIは大きく異なるアプローチを示しており、GPT-5.3-Codexの基本65トークン毎秒の15倍以上となる1000トークン毎秒以上を達成しています。これは、Cerebrasチップを活用して速度のために特別に構築された新しいモデル、GPT-5.3-Codex-Sparkによって実現されています。これらのチップは、その大きなサイズ（典型的なH100チップの1平方インチに対して70平方インチ）によって特徴付けられ、モデル全体をその大きな内部メモリに収めることで超低遅延の計算を提供します。

OpenAIのセットアップは、データストリーミングの遅延を最小限に抑えて完全にメモリ内で動作するという大きな速度優位性を提供しますが、モデルの能力に妥協があります。GPT-5.3-Codex-Sparkは、その速度効率にもかかわらず、特に複雑なタスクやツール呼び出しを管理する際に、標準版よりも能力が低くなっています。