비용 효율적인 AI 작업 라우팅을 위한 RouteLLM 설정

✍️ OpenClawRadar📅 게시일: March 9, 2026🔗 Source
비용 효율적인 AI 작업 라우팅을 위한 RouteLLM 설정
Ad

하이브리드 AI 설정을 위한 Docker Compose 구성

한 레딧 사용자가 "가난한 자의 초지능"이라고 부르는 하이브리드 AI 시스템을 구현하는 상세한 Docker Compose 설정을 게시했습니다. 이 시스템은 작업의 복잡도에 따라 로컬 모델과 클라우드 모델 사이에서 작업을 라우팅합니다.

핵심 구성 요소

이 시스템은 네 가지 주요 서비스를 사용합니다:

  • vscode-openwire: sendmeticket/vscode-openwire:1.0.0 이미지를 사용하며 포트 3000과 3030이 노출됩니다. 이를 통해 OpenWire를 통해 GitHub Copilot에 접근할 수 있지만, 소스에서는 이 방법이 TOS를 위반할 수 있다고 언급하며 사용 가능한 API 키를 대신 사용할 것을 제안합니다.
  • ollama: ollama/ollama:latest를 실행하며 포트 11434가 노출됩니다. 로컬 "약한" 모델로 qwen3.5:4b 모델을 자동으로 가져와 서비스합니다.
  • openroutellm: 포트 6060에서 sendmeticket/openroutellm:1.0.0 이미지를 사용합니다. 이는 각 요청을 어떤 모델이 처리할지 결정하는 라우팅 서비스입니다.
  • openclaw: 포트 18789와 18790이 노출된 상태로 ghcr.io/openclaw/openclaw:latest를 실행하며, 주요 인터페이스 역할을 합니다.
Ad

RouteLLM 구성

openroutellm 서비스는 다음과 같은 특정 매개변수로 구성됩니다:

python -m routellm.openai_server --routers bert --default-router-threshold 0.75 --port 6060 --openwire-base-url http://vscode-openwire:3030/v1 --ollama-base-url http://ollama:11434/v1 --strong-model gpt-4o --weak-model qwen3.5:4b

이 설정은 BERT 기반 라우팅과 0.75 임계값을 사용하여 작업을 "강력한" 모델(GPT-4o)로 보낼지 로컬 "약한" 모델(Qwen3.5:4b)로 보낼지 결정합니다.

작동 방식

이 시스템은 어려운 작업은 OpenWire/Copilot을 통해 유료 GPT-4o 모델로 라우팅하고, 간단한 작업은 Ollama에서 실행되는 로컬 Qwen3.5:4b 모델이 처리합니다. 이에 대해 작성자는 "기본 지능은 낮지만 최대 지능은 매우 높은 안전 장치가 있는 로컬 우선 AI 모델"이라고 설명합니다.

모든 서비스는 사용자 정의 Docker 네트워크(openclaw_net, 서브넷 172.10.10.0/24)를 통해 연결되며 서비스 가용성을 보장하기 위해 헬스 체크를 포함합니다.

📖 전체 소스 읽기: r/LocalLLaMA

Ad

👀 See Also

클로드-ETA 플러그인, 클로드 코드에 작업 타이밍 및 수정 루프 감지 기능 추가
Tools

클로드-ETA 플러그인, 클로드 코드에 작업 타이밍 및 수정 루프 감지 기능 추가

Claude-ETA는 작업 시간을 측정하고, 실제 속도를 학습하며, Claude가 응답하기 전에 실제 데이터를 제공하는 Claude Code 플러그인입니다. 또한 오류 내용을 지문처럼 식별하여 수정 루프를 감지하고, 동일한 실패가 세 번 반복되면 개입합니다.

OpenClawRadar
컴패니언-캡처: Claude Code의 일시적인 말풍선을 저장하는 도구
Tools

컴패니언-캡처: Claude Code의 일시적인 말풍선을 저장하는 도구

companion-capture는 터미널에서 사라지기 전에 Claude Code의 동반 캐릭터 말풍선을 캡처하는 오픈소스 도구입니다. VT100 화면 버퍼 파싱을 사용하여 커서 위치를 추적하며, 메시지를 마크다운 파일과 검색을 위한 SQLite에 저장합니다.

OpenClawRadar
Claude Code Routines, CLI 성능을 20개 이상의 PR에서 2.4배 향상
Tools

Claude Code Routines, CLI 성능을 20개 이상의 PR에서 2.4배 향상

Claude Code의 Routines를 2시간 주기로 사용하여 오픈소스 CLI(Repomix)를 자율적으로 튜닝한 결과, 20개 이상의 자동 생성 PR과 2.4배의 런타임 개선이 이루어졌습니다.

OpenClawRadar
클로드 코드와 옵시디언으로 자기 개선 지식 시스템 구축하기
Tools

클로드 코드와 옵시디언으로 자기 개선 지식 시스템 구축하기

한 개발자가 시맨틱 검색, 지식 그래프, Obsidian 볼트에 대한 간격 반복을 통해 Claude Code에 지속적인 메모리를 제공하는 25개의 도구 시스템을 구축했습니다. 이 시스템은 bge-m3 임베딩으로 콘텐츠를 색인화하고, 모순을 감지하며, 오래된 노트를 자동 정리하고, Obsidian Canvas 맵을 자동 생성합니다.

OpenClawRadar