Caché KV: De GPT-2 a Mamba, Evolución y Costos

Costos de Memoria de la Caché KV en Diferentes Arquitecturas de Modelos

Un análisis reciente de la evolución de la arquitectura de la caché KV revela mejoras significativas en la eficiencia de memoria entre los modelos transformadores. La progresión muestra cómo diferentes mecanismos de atención han reducido la memoria de GPU requerida para mantener el contexto de conversación durante la inferencia.

Comparaciones Específicas de Arquitecturas

GPT-2 (2019): 300 KiB/token. Utiliza atención multi-cabezal donde cada cabeza mantiene sus propias claves y valores sin compartir. Una conversación de 4,000 tokens requiere aproximadamente 1.2 GB de memoria de GPU solo para la caché, separada de los pesos del modelo.
Llama 3 (2024): 128 KiB/token. Implementa atención de consultas agrupadas donde múltiples cabezas de consulta comparten los mismos pares KV. Esto es menos de la mitad del costo de GPT-2, basado en la idea de que muchas cabezas estaban aprendiendo representaciones redundantes.
DeepSeek V3 (2024): 68.6 KiB/token. Utiliza atención latente multi-cabezal que comprime los pares KV en un espacio latente de menor dimensión y los descomprime en la inferencia. Este es un modelo de 671B parámetros con 37B activos mediante MoE. Los estudios de ablación de DeepSeek V2, en los que se basa la arquitectura de V3, mostraron que la representación comprimida igualaba o superaba ligeramente a la MHA estándar en varios benchmarks.
Gemma 3 (2025): Utiliza GQA más una ventana deslizante con capas de atención 5:1 local-a-global, donde las capas locales atienden solo a 1,024 tokens. Muestra casi ninguna pérdida de perplejidad debido al filtrado agresivo.
Mamba/SSMs (2023): Sin caché KV en absoluto. Utiliza un estado oculto de tamaño fijo actualizado por token. El modelo decide qué comprimir en tiempo real en lugar de almacenar todo y atender después.

Brechas Arquitectónicas e Implicaciones Prácticas

El análisis destaca una brecha entre la memoria de trabajo y el conocimiento permanente en las arquitecturas actuales. La caché KV persiste durante segundos a minutos (se reportan vidas útiles de caché de 5-10 minutos, variando por proveedor y carga), luego desaparece. Entre la caché temporal y los pesos permanentes, no hay memoria a medio plazo nativa ni un espacio arquitectónico para información como "Hablé con este usuario el martes pasado".

Las soluciones actuales como RAG, sistemas de archivos, bases de datos vectoriales y prompts del sistema que llevan contexto curado se describen como "puentes sobre un vacío arquitectónico" - sistemas de búsqueda acoplados a modelos sin almacenamiento interno a medio plazo.

El problema de compactación ejemplifica esta limitación. Cuando el contexto crece demasiado, los modelos resumen su propio historial, limpian la caché y continúan desde el resumen. Esto puede llevar a pérdida de precisión (una política de publicación con seis reglas se convierte en "algo sobre pautas editoriales") y modelos operando con confianza en contexto degradado sin saber qué se perdió.

El enfoque de compactación aprendida de Cursor entrena modelos para auto-resumir bien mediante RL en lugar de solo solicitar compresión, pero la evidencia se limita a un benchmark de codificación. El código proporciona señales de recompensa claras (las pruebas pasan o fallan), a diferencia de escenarios como compactar notas editoriales, planificación estratégica o conversaciones donde detalles críticos no serán necesarios durante muchos mensajes.

📖 Read the full source: r/LocalLLaMA

Evolución de la Arquitectura de Caché KV: Desde GPT-2 hasta Mamba

Costos de Memoria de la Caché KV en Diferentes Arquitecturas de Modelos

Comparaciones Específicas de Arquitecturas

Brechas Arquitectónicas e Implicaciones Prácticas

👀 Ver también

OpenClaw v2026.6.11: Correcciones para respuestas mal ubicadas, envíos bloqueados y fallos del modelo

Claude Code v2.1.133: reversión de worktree.baseRef, rutas de sandbox, corrección de proxy para MCP OAuth

Crecimiento del Ecosistema OpenClaw y Mapeo de los Principales Actores

Métodos de Monetización de Agentes Probados: Resultado Más Rápido en 80 Segundos