Fallback Multi-Provedor de LLM com Ollama na Resonant Genesis IDE

O Resonant Genesis, uma plataforma de IDE de IA em produção, integrou suporte a LLMs locais como um provedor de primeira classe em sua arquitetura. A plataforma opera em mais de 30 microsserviços e trata os modelos locais como iguais aos provedores de nuvem como Groq, OpenAI, Anthropic e Gemini.

Arquitetura e integração

A plataforma usa uma biblioteca compartilhada rg_llm chamada UnifiedLLMClient que é montada em volume em todos os serviços. Cada microsserviço que precisa de capacidades de LLM importa este mesmo cliente. A cadeia de fallback é configurada como: Groq → OpenAI → Anthropic → Gemini → Ollama/LM Studio.

A extensão de cliente leve da IDE descobre automaticamente os modelos locais do Ollama e os adiciona à lista de provedores. Os usuários podem configurar o sistema para preferir modelos locais primeiro, se desejado.

Orquestração do lado do servidor

Toda a orquestração reside no lado do servidor, com a IDE atuando como um cliente leve que renderiza a interface do usuário, executa ferramentas locais (operações de arquivo, terminal, git) e transmite resultados via Server-Sent Events (SSE). O loop agentivo, a seleção de ferramentas, os prompts do sistema e o roteamento de LLM ocorrem todos no servidor.

Ao usar um modelo local, ele ainda passa pelo mesmo pipeline de execução governado:

Aplicação de políticas pré-execução (bloqueia ações antes de serem executadas)
Chamada de função nativa via APIs do provedor (sem injeção de prompt JSON)
Identidade criptográfica (DSID na Ethereum L2) para cada agente
Mesmas 59 ferramentas locais disponíveis, independentemente de qual provedor de LLM você escolher

Benefícios para usuários de LLMs locais

Para usuários que executam Ollama localmente, esta arquitetura fornece:

Privacidade: A arquitetura de cliente leve significa que não há inteligência da empresa no binário, e com modelos locais, os prompts permanecem locais
Uso de ferramentas: 59 ferramentas locais com chamada de função nativa, não esquemas JSON injetados por prompt
Fallback: Se um modelo local não conseguir lidar com uma tarefa complexa, ele automaticamente recorre aos provedores de nuvem

Os desenvolvedores estão buscando feedback de pessoas que executam modelos locais, particularmente sobre o desempenho da chamada de função com modelos menores e quais modelos funcionam bem para uso agentivo de ferramentas.

O projeto é de código aberto em GitHub, e um chat de convidado demonstrando o ecossistema de ferramentas está disponível em dev-swat.com (usa modelos de nuvem).

📖 Leia a fonte completa: r/LocalLLaMA

Cadeia de fallback de LLM multi-provedor com suporte a Ollama em IDE de IA de produção

Arquitetura e integração

Orquestração do lado do servidor

Benefícios para usuários de LLMs locais

👀 See Also

TinySearch v0.2.0: Pesquisa Web Leve para LLMs Locais Agora com Suporte do SearXNG

MuninnDB adiciona Dream Engine para consolidação de memória de LLM com isolamento de cofre

OCTO-VEC: Empresa de software virtual de código aberto com 24 agentes de IA

Sistema de 2 Prompts para Carregar Contexto Entre Chats do Claude Sem Desperdício de Tokens