Evolução da Arquitetura de Cache KV: Do GPT-2 ao Mamba

✍️ OpenClawRadar📅 Publicado: March 29, 2026🔗 Source
Evolução da Arquitetura de Cache KV: Do GPT-2 ao Mamba
Ad

Custos de Memória do Cache KV em Diferentes Arquiteturas de Modelo

Uma análise recente da evolução da arquitetura do cache KV revela melhorias significativas na eficiência de memória entre os modelos transformadores. A progressão mostra como diferentes mecanismos de atenção reduziram a memória de GPU necessária para manter o contexto da conversa durante a inferência.

Comparações Específicas de Arquitetura

  • GPT-2 (2019): 300 KiB/token. Usa atenção multi-cabeça onde cada cabeça mantém suas próprias chaves e valores sem compartilhamento. Uma conversa de 4.000 tokens requer aproximadamente 1,2 GB de memória de GPU apenas para o cache, separado dos pesos do modelo.
  • Llama 3 (2024): 128 KiB/token. Implementa atenção de consulta agrupada onde múltiplas cabeças de consulta compartilham os mesmos pares KV. Isso é menos da metade do custo do GPT-2, baseado na percepção de que muitas cabeças estavam aprendendo representações redundantes.
  • DeepSeek V3 (2024): 68,6 KiB/token. Usa atenção latente multi-cabeça que comprime os pares KV em um espaço latente de menor dimensão e descomprime na inferência. Este é um modelo de 671B parâmetros com 37B ativos via MoE. Os estudos de ablação do DeepSeek V2, nos quais a arquitetura do V3 se baseia, mostraram que a representação comprimida igualou ou superou levemente o MHA padrão em vários benchmarks.
  • Gemma 3 (2025): Usa GQA mais uma janela deslizante com camadas de atenção 5:1 local-para-global, onde as camadas locais atendem apenas a 1.024 tokens. Mostra quase nenhuma perda de perplexidade com a filtragem agressiva.
  • Mamba/SSMs (2023): Nenhum cache KV. Usa estado oculto de tamanho fixo atualizado por token. O modelo decide o que comprimir em tempo real em vez de armazenar tudo e atender depois.
Ad

Lacunas Arquiteturais e Implicações Práticas

A análise destaca uma lacuna entre memória de trabalho e conhecimento permanente nas arquiteturas atuais. O cache KV persiste por segundos a minutos (tempos de vida reportados são 5-10 minutos, variando por provedor e carga), depois desaparece. Entre o cache temporário e os pesos permanentes, não há memória de médio prazo nativa ou espaço arquitetural para informações como "conversei com este usuário na última terça".

Soluções atuais como RAG, sistemas de arquivos, bancos de dados vetoriais e prompts de sistema carregando contexto curado são descritas como "pontes sobre um vazio arquitetural" - sistemas de busca acoplados a modelos sem armazenamento interno de médio prazo.

O problema da compactação exemplifica essa limitação. Quando o contexto cresce demais, os modelos resumem seu próprio histórico, limpam o cache e continuam a partir do resumo. Isso pode levar à perda de precisão (uma política de publicação com seis regras se torna "algo sobre diretrizes editoriais") e modelos operando confiantemente em contexto degradado sem saber o que foi perdido.

A abordagem de compactação aprendida do Cursor treina modelos para se auto-resumirem bem via RL em vez de apenas solicitar compressão, mas as evidências são limitadas a um benchmark de codificação. Código fornece sinais de recompensa limpos (testes passam ou falham), ao contrário de cenários como compactar notas editoriais, planejamento estratégico ou conversas onde detalhes críticos não serão necessários por muitas mensagens.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

A Wikipédia Proíbe Conteúdo Gerado por IA, Permite Uso Limitado de IA com Revisão Humana
News

A Wikipédia Proíbe Conteúdo Gerado por IA, Permite Uso Limitado de IA com Revisão Humana

A Wikipédia proibiu oficialmente seus 260.000 editores de usar IA como o ChatGPT para escrever artigos, citando preocupações com precisão e confiabilidade. Os editores ainda podem usar IA para tradução e revisão de texto com aprovação humana.

OpenClawRadar
RTX 5000 PRO 48GB Fornece Cache de Precisão de 4400 tok/s para Qwen3.6-27B
News

RTX 5000 PRO 48GB Fornece Cache de Precisão de 4400 tok/s para Qwen3.6-27B

Um construtor de PC novato relata 4400 tok/s de processamento de prompt e 80 tok/s de geração com Qwen3.6-27B-FP8, cache KV de precisão total em uma única RTX 5000 Pro 48GB, usando vLLM e Claude Code.

OpenClawRadar
A pesquisa mostra que a personalidade afeta a autocorreção do Claude, mas não a do Llama ou do Qwen.
News

A pesquisa mostra que a personalidade afeta a autocorreção do Claude, mas não a do Llama ou do Qwen.

Um pesquisador conduziu 23 experimentos testando a autocorreção sem proteções no Claude, Llama e Qwen. A principal descoberta: perfis de personalidade afetam a capacidade de autocorreção do Claude, com alta objetividade detectando todos os erros e baixa objetividade não detectando nenhum. Llama e Qwen não se autocorrigiram mesmo com prompts idênticos.

OpenClawRadar
Dois Projetos de Pesquisa Desafiam a Aprendizagem por Imitação para Agentes Web
News

Dois Projetos de Pesquisa Desafiam a Aprendizagem por Imitação para Agentes Web

Dois projetos de pesquisa demonstram limitações do treinamento baseado apenas em imitação para agentes web: 'Browser in the Loop' usa RL com um modelo de 8B parâmetros para melhorar o sucesso no envio de formulários, enquanto 'Concentrate or Collapse' mostra que o RL padrão falha com modelos de linguagem de difusão, exigindo otimização em nível de sequência.

OpenClawRadar