Anthropic提案：AIクエリを5段階ルーティングする適応的推論

概要

2026年4月にAnthropicの製品・エンジニアリングチームに提出された技術提案書で、高コストな計算が開始される前に複雑度評価に基づいてAIクエリを適切なモデル階層に自動的にルーティングする仕組みについて。

課題

現在、Claudeに送信されるすべてのクエリ（「卵を何分茹でるか」のような単純な質問から2,000語の技術的なプロンプトまで）は、デフォルトでフル機能モデルにルーティングされています。システムは計算リソースを割り当てる前に複雑度を評価しないため、大規模運用では非効率的です。AI推論はデータセンターのエネルギー消費の中で最も急速に成長している要素であり、2028年までに米国の電力消費の12％に達すると予測されています。

提案される解決策：5段階プロセス

ステップ1 — 計測： クエリの文字数、文数、添付ファイルや複数部分からなる指示の有無を測定
ステップ2 — 振り分け： 複雑度スコアに基づいてモデル階層にルーティング。単一の短い文は軽量モデルに、複数段落の文脈を含むプロンプトは高性能モデルに
ステップ3 — 読み取り： 割り当てられたモデルが通常通りクエリを処理
ステップ4 — 回答： ユーザーに応答を返す
ステップ5 — 昇格： ユーザーが不満を示した場合（反論する、深掘りを求める、言い換える）、システムは自動的により高性能なモデルに切り替えてフォローアップ

複雑度スコアリングの仕組み

システムは5要素の事前ルーティングスコアを使用：文字数、文数、添付ファイルの有無、疑問詞の密度、過去の会話の深さ。これにより、モデル推論を一切行わずに、相当な割合のクエリを正しく分類できます。文字数は一次信号として機能します。なぜなら、ほとんどの単純なクエリは短く、ほとんどの複雑なクエリは長いからです。

ユーザーエクスペリエンス設計

ユーザーはこのシステムを見たり、モデルを選択するよう求められたりすべきではありません。インターフェースは同一のままで、ルーティングは不可視です。回答が不十分な場合、ユーザーはさらに求めるとより多くの情報を受け取ります。これにより、非技術系ユーザーにHaiku、Sonnet、Opusなどのモデル階層から選択させるという摩擦がなくなります。