RouteLLM 설정: 비용 효율적인 AI 작업 라우팅 가이드

하이브리드 AI 설정을 위한 Docker Compose 구성

한 레딧 사용자가 "가난한 자의 초지능"이라고 부르는 하이브리드 AI 시스템을 구현하는 상세한 Docker Compose 설정을 게시했습니다. 이 시스템은 작업의 복잡도에 따라 로컬 모델과 클라우드 모델 사이에서 작업을 라우팅합니다.

핵심 구성 요소

이 시스템은 네 가지 주요 서비스를 사용합니다:

vscode-openwire: sendmeticket/vscode-openwire:1.0.0 이미지를 사용하며 포트 3000과 3030이 노출됩니다. 이를 통해 OpenWire를 통해 GitHub Copilot에 접근할 수 있지만, 소스에서는 이 방법이 TOS를 위반할 수 있다고 언급하며 사용 가능한 API 키를 대신 사용할 것을 제안합니다.
ollama: ollama/ollama:latest를 실행하며 포트 11434가 노출됩니다. 로컬 "약한" 모델로 qwen3.5:4b 모델을 자동으로 가져와 서비스합니다.
openroutellm: 포트 6060에서 sendmeticket/openroutellm:1.0.0 이미지를 사용합니다. 이는 각 요청을 어떤 모델이 처리할지 결정하는 라우팅 서비스입니다.
openclaw: 포트 18789와 18790이 노출된 상태로 ghcr.io/openclaw/openclaw:latest를 실행하며, 주요 인터페이스 역할을 합니다.

RouteLLM 구성

openroutellm 서비스는 다음과 같은 특정 매개변수로 구성됩니다:

python -m routellm.openai_server --routers bert --default-router-threshold 0.75 --port 6060 --openwire-base-url http://vscode-openwire:3030/v1 --ollama-base-url http://ollama:11434/v1 --strong-model gpt-4o --weak-model qwen3.5:4b

이 설정은 BERT 기반 라우팅과 0.75 임계값을 사용하여 작업을 "강력한" 모델(GPT-4o)로 보낼지 로컬 "약한" 모델(Qwen3.5:4b)로 보낼지 결정합니다.

작동 방식

이 시스템은 어려운 작업은 OpenWire/Copilot을 통해 유료 GPT-4o 모델로 라우팅하고, 간단한 작업은 Ollama에서 실행되는 로컬 Qwen3.5:4b 모델이 처리합니다. 이에 대해 작성자는 "기본 지능은 낮지만 최대 지능은 매우 높은 안전 장치가 있는 로컬 우선 AI 모델"이라고 설명합니다.

모든 서비스는 사용자 정의 Docker 네트워크(openclaw_net, 서브넷 172.10.10.0/24)를 통해 연결되며 서비스 가용성을 보장하기 위해 헬스 체크를 포함합니다.

📖 전체 소스 읽기: r/LocalLLaMA