프로덕션 AI IDE에서 Ollama를 지원하는 다중 제공자 LLM 폴백 체인

✍️ OpenClawRadar📅 게시일: March 25, 2026🔗 Source
프로덕션 AI IDE에서 Ollama를 지원하는 다중 제공자 LLM 폴백 체인
Ad

프로덕션 AI IDE 플랫폼인 Resonant Genesis는 아키텍처에서 로컬 LLM 지원을 1급 제공자로 통합했습니다. 이 플랫폼은 30개 이상의 마이크로서비스에서 실행되며 로컬 모델을 Groq, OpenAI, Anthropic, Gemini와 같은 클라우드 제공자와 동등하게 취급합니다.

아키텍처와 통합

이 플랫폼은 모든 서비스에 볼륨 마운트된 공유 rg_llm 라이브러리인 UnifiedLLMClient를 사용합니다. LLM 기능이 필요한 모든 마이크로서비스는 이 동일한 클라이언트를 임포트합니다. 폴백 체인은 Groq → OpenAI → Anthropic → Gemini → Ollama/LM Studio 순으로 구성됩니다.

IDE의 씬 클라이언트 확장은 로컬 Ollama 모델을 자동으로 탐지하여 제공자 목록에 추가합니다. 사용자는 원하는 경우 시스템을 로컬 모델을 우선적으로 사용하도록 구성할 수 있습니다.

서버 측 오케스트레이션

모든 오케스트레이션은 서버 측에서 이루어지며, IDE는 UI를 렌더링하고 로컬 도구(파일 작업, 터미널, git)를 실행하며 Server-Sent Events(SSE)를 통해 결과를 스트리밍하는 씬 클라이언트 역할을 합니다. 에이전트 루프, 도구 선택, 시스템 프롬프트, LLM 라우팅은 모두 서버에서 처리됩니다.

로컬 모델을 사용할 때도 동일한 통제된 실행 파이프라인을 거칩니다:

  • 사전 실행 정책 적용(작업 실행 전 차단)
  • 제공자 API를 통한 네이티브 함수 호출(JSON 프롬프트 주입 없음)
  • 모든 에이전트에 대한 암호화된 신원(Ethereum L2의 DSID)
  • 선택한 LLM 제공자에 관계없이 사용 가능한 동일한 59개의 로컬 도구
Ad

로컬 LLM 사용자를 위한 이점

로컬에서 Ollama를 실행하는 사용자에게 이 아키텍처는 다음과 같은 이점을 제공합니다:

  • 프라이버시: 씬 클라이언트 아키텍처는 바이너리에 회사 인텔리전스가 없음을 의미하며, 로컬 모델을 사용하면 프롬프트가 로컬에 유지됩니다
  • 도구 사용: 프롬프트 주입된 JSON 스키마가 아닌 네이티브 함수 호출을 지원하는 59개의 로컬 도구
  • 폴백: 로컬 모델이 복잡한 작업을 처리할 수 없는 경우 자동으로 클라우드 제공자로 폴백됩니다

개발자들은 로컬 모델을 실행하는 사용자들로부터 피드백을 구하고 있으며, 특히 작은 모델의 함수 호출 성능과 에이전트 도구 사용에 적합한 모델에 관한 의견을 원합니다.

이 프로젝트는 GitHub에서 오픈 소스로 제공되며, 도구 생태계를 시연하는 게스트 채팅은 dev-swat.com에서 라이브로 운영됩니다(클라우드 모델 사용).

📖 전체 소스 읽기: r/LocalLLaMA

Ad

👀 See Also

IUM: MCP 심볼 인덱서, AI 에이전트 토큰 사용량을 grep 대비 15.9배 절감
Tools

IUM: MCP 심볼 인덱서, AI 에이전트 토큰 사용량을 grep 대비 15.9배 절감

IUM은 코드베이스를 SQLite 심볼 이벤트 매트릭스로 색인하여 정확한 파일:라인 좌표, 호출 그래프 추적 및 MCP를 통한 의미 검색을 제공합니다. DataFusion(1,538개 파일)을 기준으로 벤치마킹한 결과, 동등한 쿼리에 대해 grep보다 토큰이 15.9배 적었습니다.

OpenClawRadar
클로드 코워크 vs 오픈클로: 대체 서사가 성립하는 지점과 한계
Tools

클로드 코워크 vs 오픈클로: 대체 서사가 성립하는 지점과 한계

Claude Cowork는 낮은 마찰로 지속적인 데스크톱 세션을 제공하는 반면, OpenClaw는 시스템 수준 자동화, 스킬 생태계, 워크플로우 제어에서 장점을 유지합니다.

OpenClawRadar
에이전트 웨이크 스킬 for OpenClaw: 작업 완료 시 Discord에 알림
Tools

에이전트 웨이크 스킬 for OpenClaw: 작업 완료 시 Discord에 알림

한 개발자가 작업이 끝난 후 Claude Code가 호출하는 Python 스크립트인 agent-wake.py를 만들었습니다. 이 스크립트는 Discord에 멘션 알림을 보내고 게이트웨이 HTTP API를 통해 웨이크 이벤트를 발생시켜, 에이전트가 자동으로 요약을 게시하도록 합니다.

OpenClawRadar
클로드를 위한 지속적 메모리: MCP 기반 로컬 스택, 39ms 검색, 82% 토큰 감소
Tools

클로드를 위한 지속적 메모리: MCP 기반 로컬 스택, 39ms 검색, 82% 토큰 감소

한 개발자가 로컬 벡터 검색(Qdrant + Qwen3)과 MCP 통합을 사용하여 Claude용 영구 메모리 레이어를 구축하여 82%의 토큰 감소, 39ms 핫패스 검색, L4 노드를 통한 세션 결정화를 달성했습니다.

OpenClawRadar