RouteLLMセットアップ方法：コスト効率の高いAIタスクルーティング

ハイブリッドAIセットアップのためのDocker Compose構成

Redditユーザーが、「貧者のスーパーインテリジェンス」と呼ぶハイブリッドAIシステムを実装した詳細なDocker Composeセットアップを投稿しました。このシステムは、複雑度に基づいてタスクをローカルモデルとクラウドモデル間でルーティングします。

主要コンポーネント

このシステムは4つの主要サービスを使用します：

vscode-openwire：イメージsendmeticket/vscode-openwire:1.0.0を使用し、ポート3000と3030を公開。これによりOpenWire経由でGitHub Copilotにアクセスできますが、ソースではこれが利用規約に違反する可能性があり、代わりに利用可能なAPIキーの使用を推奨しています。
ollama：ollama/ollama:latestを実行し、ポート11434を公開。ローカルの「弱い」モデルとしてqwen3.5:4bモデルを自動的にプルして提供します。
openroutellm：イメージsendmeticket/openroutellm:1.0.0をポート6060で使用。これは各リクエストをどのモデルが処理するかを決定するルーティングサービスです。
openclaw：ghcr.io/openclaw/openclaw:latestを実行し、ポート18789と18790を公開。メインインターフェースとして機能します。

RouteLLM構成

openroutellmサービスは特定のパラメータで構成されています：

python -m routellm.openai_server --routers bert --default-router-threshold 0.75 --port 6060 --openwire-base-url http://vscode-openwire:3030/v1 --ollama-base-url http://ollama:11434/v1 --strong-model gpt-4o --weak-model qwen3.5:4b

このセットアップは、BERTベースのルーティングと0.75の閾値を使用して、タスクを「強い」モデル（GPT-4o）とローカルの「弱い」モデル（Qwen3.5:4b）のどちらに送るかを決定します。

動作の仕組み

このシステムは、難しいタスクをOpenWire/Copilot経由で有料のGPT-4oモデルにルーティングし、単純なタスクはOllamaで実行されているローカルのQwen3.5:4bモデルで処理します。これにより、作者が「フェイルセーフでローカルファースト、低い基本知能だが非常に高い最大知能を持つAIモデル」と表現するものが実現されます。

すべてのサービスはカスタムDockerネットワーク（openclaw_net、サブネット172.10.10.0/24）を介して接続され、サービスの可用性を確保するためのヘルスチェックが含まれています。

📖 完全なソースを読む： r/LocalLLaMA