Evolução da Arquitetura de Cache KV: Do GPT-2 ao Mamba

Custos de Memória do Cache KV em Diferentes Arquiteturas de Modelo

Uma análise recente da evolução da arquitetura do cache KV revela melhorias significativas na eficiência de memória entre os modelos transformadores. A progressão mostra como diferentes mecanismos de atenção reduziram a memória de GPU necessária para manter o contexto da conversa durante a inferência.

Comparações Específicas de Arquitetura

GPT-2 (2019): 300 KiB/token. Usa atenção multi-cabeça onde cada cabeça mantém suas próprias chaves e valores sem compartilhamento. Uma conversa de 4.000 tokens requer aproximadamente 1,2 GB de memória de GPU apenas para o cache, separado dos pesos do modelo.
Llama 3 (2024): 128 KiB/token. Implementa atenção de consulta agrupada onde múltiplas cabeças de consulta compartilham os mesmos pares KV. Isso é menos da metade do custo do GPT-2, baseado na percepção de que muitas cabeças estavam aprendendo representações redundantes.
DeepSeek V3 (2024): 68,6 KiB/token. Usa atenção latente multi-cabeça que comprime os pares KV em um espaço latente de menor dimensão e descomprime na inferência. Este é um modelo de 671B parâmetros com 37B ativos via MoE. Os estudos de ablação do DeepSeek V2, nos quais a arquitetura do V3 se baseia, mostraram que a representação comprimida igualou ou superou levemente o MHA padrão em vários benchmarks.
Gemma 3 (2025): Usa GQA mais uma janela deslizante com camadas de atenção 5:1 local-para-global, onde as camadas locais atendem apenas a 1.024 tokens. Mostra quase nenhuma perda de perplexidade com a filtragem agressiva.
Mamba/SSMs (2023): Nenhum cache KV. Usa estado oculto de tamanho fixo atualizado por token. O modelo decide o que comprimir em tempo real em vez de armazenar tudo e atender depois.

Lacunas Arquiteturais e Implicações Práticas

A análise destaca uma lacuna entre memória de trabalho e conhecimento permanente nas arquiteturas atuais. O cache KV persiste por segundos a minutos (tempos de vida reportados são 5-10 minutos, variando por provedor e carga), depois desaparece. Entre o cache temporário e os pesos permanentes, não há memória de médio prazo nativa ou espaço arquitetural para informações como "conversei com este usuário na última terça".

Soluções atuais como RAG, sistemas de arquivos, bancos de dados vetoriais e prompts de sistema carregando contexto curado são descritas como "pontes sobre um vazio arquitetural" - sistemas de busca acoplados a modelos sem armazenamento interno de médio prazo.

O problema da compactação exemplifica essa limitação. Quando o contexto cresce demais, os modelos resumem seu próprio histórico, limpam o cache e continuam a partir do resumo. Isso pode levar à perda de precisão (uma política de publicação com seis regras se torna "algo sobre diretrizes editoriais") e modelos operando confiantemente em contexto degradado sem saber o que foi perdido.

A abordagem de compactação aprendida do Cursor treina modelos para se auto-resumirem bem via RL em vez de apenas solicitar compressão, mas as evidências são limitadas a um benchmark de codificação. Código fornece sinais de recompensa limpos (testes passam ou falham), ao contrário de cenários como compactar notas editoriais, planejamento estratégico ou conversas onde detalhes críticos não serão necessários por muitas mensagens.

📖 Read the full source: r/LocalLLaMA

Evolução da Arquitetura de Cache KV: Do GPT-2 ao Mamba

Custos de Memória do Cache KV em Diferentes Arquiteturas de Modelo

Comparações Específicas de Arquitetura

Lacunas Arquiteturais e Implicações Práticas

👀 See Also

ThinkPad de 34 Anos: Do IBM 700C às Estações de Trabalho de IA da Lenovo

Claude Code v2.1.163: Fixação de Versão, Lista de Plugins, Melhorias em Hooks e Correções Críticas de Bugs

Anthropic lança ferramenta de IA para analisar bases de código COBOL, ações da IBM caem 13%

Claude Research Preview Adiciona Controle Direto do Computador para Automação de Tarefas