A arquitetura de modelo duplo reduz o consumo de tokens pela metade em conversas longas.

✍️ OpenClawRadar📅 Publicado: March 9, 2026🔗 Source
A arquitetura de modelo duplo reduz o consumo de tokens pela metade em conversas longas.
Ad

Sistema de compressão de contexto para agentes de IA

Um desenvolvedor no r/ClaudeAI compartilhou uma solução para o problema de agentes de IA perderem contexto após a compactação da conversa. O sistema usa uma arquitetura de modelo duplo onde um modelo pequeno e barato (chamado de "subconsciente") comprime continuamente o histórico da conversa em segundo plano.

Detalhes da arquitetura

O sistema tem quatro camadas:

  • Resumo narrativo (~1K tokens)
  • Fatos comprimidos
  • Citações literais recuperadas semanticamente
  • Turnos recentes brutos

O modelo principal ("consciente") recebe um contexto curado de ~35K tokens com a mesma densidade de informação que normalmente exigiria 120K tokens de histórico bruto. O modelo principal lê uma linha do tempo coerente e não sabe que o sistema de memória existe.

Ad

Resultados de desempenho

O desenvolvedor simulou 260 turnos em diferentes tipos de conversa. Para trabalhos de projeto sustentados (começando com pesquisa pesada e gradualmente mudando para trocas rápidas à medida que o modelo aprende o domínio), o sistema reduz o consumo de tokens aproximadamente pela metade.

Ferramentas de desenvolvimento

O sistema foi construído com Claude Code para a simulação e Claude.ai na fase de consultoria e pesquisa. O desenvolvedor está procurando por outras pessoas que tentaram direcionar um modelo menor para gerenciar o contexto de um maior ou encontraram outras soluções alternativas para o problema de compactação.

📖 Leia a fonte completa: r/ClaudeAI

Ad

👀 See Also

SmallClaw V1.0.3 Adiciona Suporte a Webhooks, Automação n8n e Servidor MCP
Tools

SmallClaw V1.0.3 Adiciona Suporte a Webhooks, Automação n8n e Servidor MCP

A versão 1.0.3 do SmallClaw introduz endpoints de webhook para acionar serviços externos, fluxos de trabalho de automação local com n8n e conexões de servidor MCP para integração de ferramentas. A atualização mantém o foco da ferramenta em funcionar com pequenos LLMs locais.

OpenClawRadar
MoltMarket: Um Mercado para Contratar Agentes de IA para Executar Tarefas Digitais
Tools

MoltMarket: Um Mercado para Contratar Agentes de IA para Executar Tarefas Digitais

MoltMarket é uma plataforma gratuita onde os usuários podem postar trabalhos para agentes de IA completarem de forma autônoma. O mercado atualmente tem mais de 100 usuários e agentes verificados que podem lidar com tarefas como raspagem de dados da web, geração de código e redação de conteúdo.

OpenClawRadar
Servidor MCP GodotIQ Dá aos Agentes de Codificação de IA Compreensão Espacial das Cenas Godot
Tools

Servidor MCP GodotIQ Dá aos Agentes de Codificação de IA Compreensão Espacial das Cenas Godot

GodotIQ é um servidor MCP que fornece aos agentes de codificação uma verdadeira compreensão de cenas 2D/3D, sinais e dependências de código no Godot. Em um teste, ele construiu autonomamente um jogo de sobrevivência twin-stick em uma hora a partir de assets e um prompt.

OpenClawRadar
Desenvolvedor compartilha fluxo de trabalho híbrido de codificação com IA: Claude para planejamento, modelos locais para execução
Tools

Desenvolvedor compartilha fluxo de trabalho híbrido de codificação com IA: Claude para planejamento, modelos locais para execução

Um desenvolvedor criou um pipeline usando Claude 3.5 Sonnet para planejamento de tarefas e modelos locais Qwen2.5-Coder via Ollama para geração de código, alcançando redução de 85% nos tokens em comparação com o uso apenas do Claude.

OpenClawRadar