A arquitetura de modelo duplo reduz o consumo de tokens pela metade em conversas longas.

Sistema de compressão de contexto para agentes de IA
Um desenvolvedor no r/ClaudeAI compartilhou uma solução para o problema de agentes de IA perderem contexto após a compactação da conversa. O sistema usa uma arquitetura de modelo duplo onde um modelo pequeno e barato (chamado de "subconsciente") comprime continuamente o histórico da conversa em segundo plano.
Detalhes da arquitetura
O sistema tem quatro camadas:
- Resumo narrativo (~1K tokens)
- Fatos comprimidos
- Citações literais recuperadas semanticamente
- Turnos recentes brutos
O modelo principal ("consciente") recebe um contexto curado de ~35K tokens com a mesma densidade de informação que normalmente exigiria 120K tokens de histórico bruto. O modelo principal lê uma linha do tempo coerente e não sabe que o sistema de memória existe.
Resultados de desempenho
O desenvolvedor simulou 260 turnos em diferentes tipos de conversa. Para trabalhos de projeto sustentados (começando com pesquisa pesada e gradualmente mudando para trocas rápidas à medida que o modelo aprende o domínio), o sistema reduz o consumo de tokens aproximadamente pela metade.
Ferramentas de desenvolvimento
O sistema foi construído com Claude Code para a simulação e Claude.ai na fase de consultoria e pesquisa. O desenvolvedor está procurando por outras pessoas que tentaram direcionar um modelo menor para gerenciar o contexto de um maior ou encontraram outras soluções alternativas para o problema de compactação.
📖 Leia a fonte completa: r/ClaudeAI
👀 See Also

SmallClaw V1.0.3 Adiciona Suporte a Webhooks, Automação n8n e Servidor MCP
A versão 1.0.3 do SmallClaw introduz endpoints de webhook para acionar serviços externos, fluxos de trabalho de automação local com n8n e conexões de servidor MCP para integração de ferramentas. A atualização mantém o foco da ferramenta em funcionar com pequenos LLMs locais.

MoltMarket: Um Mercado para Contratar Agentes de IA para Executar Tarefas Digitais
MoltMarket é uma plataforma gratuita onde os usuários podem postar trabalhos para agentes de IA completarem de forma autônoma. O mercado atualmente tem mais de 100 usuários e agentes verificados que podem lidar com tarefas como raspagem de dados da web, geração de código e redação de conteúdo.

Servidor MCP GodotIQ Dá aos Agentes de Codificação de IA Compreensão Espacial das Cenas Godot
GodotIQ é um servidor MCP que fornece aos agentes de codificação uma verdadeira compreensão de cenas 2D/3D, sinais e dependências de código no Godot. Em um teste, ele construiu autonomamente um jogo de sobrevivência twin-stick em uma hora a partir de assets e um prompt.

Desenvolvedor compartilha fluxo de trabalho híbrido de codificação com IA: Claude para planejamento, modelos locais para execução
Um desenvolvedor criou um pipeline usando Claude 3.5 Sonnet para planejamento de tarefas e modelos locais Qwen2.5-Coder via Ollama para geração de código, alcançando redução de 85% nos tokens em comparação com o uso apenas do Claude.