Evolución de la Arquitectura de Caché KV: Desde GPT-2 hasta Mamba

Costos de Memoria de la Caché KV en Diferentes Arquitecturas de Modelos
Un análisis reciente de la evolución de la arquitectura de la caché KV revela mejoras significativas en la eficiencia de memoria entre los modelos transformadores. La progresión muestra cómo diferentes mecanismos de atención han reducido la memoria de GPU requerida para mantener el contexto de conversación durante la inferencia.
Comparaciones Específicas de Arquitecturas
- GPT-2 (2019): 300 KiB/token. Utiliza atención multi-cabezal donde cada cabeza mantiene sus propias claves y valores sin compartir. Una conversación de 4,000 tokens requiere aproximadamente 1.2 GB de memoria de GPU solo para la caché, separada de los pesos del modelo.
- Llama 3 (2024): 128 KiB/token. Implementa atención de consultas agrupadas donde múltiples cabezas de consulta comparten los mismos pares KV. Esto es menos de la mitad del costo de GPT-2, basado en la idea de que muchas cabezas estaban aprendiendo representaciones redundantes.
- DeepSeek V3 (2024): 68.6 KiB/token. Utiliza atención latente multi-cabezal que comprime los pares KV en un espacio latente de menor dimensión y los descomprime en la inferencia. Este es un modelo de 671B parámetros con 37B activos mediante MoE. Los estudios de ablación de DeepSeek V2, en los que se basa la arquitectura de V3, mostraron que la representación comprimida igualaba o superaba ligeramente a la MHA estándar en varios benchmarks.
- Gemma 3 (2025): Utiliza GQA más una ventana deslizante con capas de atención 5:1 local-a-global, donde las capas locales atienden solo a 1,024 tokens. Muestra casi ninguna pérdida de perplejidad debido al filtrado agresivo.
- Mamba/SSMs (2023): Sin caché KV en absoluto. Utiliza un estado oculto de tamaño fijo actualizado por token. El modelo decide qué comprimir en tiempo real en lugar de almacenar todo y atender después.
Brechas Arquitectónicas e Implicaciones Prácticas
El análisis destaca una brecha entre la memoria de trabajo y el conocimiento permanente en las arquitecturas actuales. La caché KV persiste durante segundos a minutos (se reportan vidas útiles de caché de 5-10 minutos, variando por proveedor y carga), luego desaparece. Entre la caché temporal y los pesos permanentes, no hay memoria a medio plazo nativa ni un espacio arquitectónico para información como "Hablé con este usuario el martes pasado".
Las soluciones actuales como RAG, sistemas de archivos, bases de datos vectoriales y prompts del sistema que llevan contexto curado se describen como "puentes sobre un vacío arquitectónico" - sistemas de búsqueda acoplados a modelos sin almacenamiento interno a medio plazo.
El problema de compactación ejemplifica esta limitación. Cuando el contexto crece demasiado, los modelos resumen su propio historial, limpian la caché y continúan desde el resumen. Esto puede llevar a pérdida de precisión (una política de publicación con seis reglas se convierte en "algo sobre pautas editoriales") y modelos operando con confianza en contexto degradado sin saber qué se perdió.
El enfoque de compactación aprendida de Cursor entrena modelos para auto-resumir bien mediante RL en lugar de solo solicitar compresión, pero la evidencia se limita a un benchmark de codificación. El código proporciona señales de recompensa claras (las pruebas pasan o fallan), a diferencia de escenarios como compactar notas editoriales, planificación estratégica o conversaciones donde detalles críticos no serán necesarios durante muchos mensajes.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Claude Code v2.1.74 Actualizaciones del Prompt del Sistema: Reglas de Seguridad, Selección de Memoria y Nuevas Habilidades
Claude Code v2.1.74 añade 1.750 tokens a los prompts del sistema, incluyendo nuevas reglas del monitor de seguridad que bloquean escrituras externas no autorizadas, una habilidad /stuck para diagnosticar sesiones congeladas, y mejoras en la selección de memoria que omiten referencias API redundantes.

El análisis de Goldman Sachs muestra un impacto mínimo de la IA en el crecimiento del PIB de EE. UU. para 2025.
Los economistas de Goldman Sachs informan que la inversión en IA contribuyó 'básicamente cero' al crecimiento del PIB de EE.UU. en 2025, citando el hardware importado y los impactos de productividad no medidos como factores clave.

El desarrollador prefiere Qwen3.5-27B sobre los modelos propietarios por su modo de fallo
Un desarrollador en r/LocalLLaMA informa que prefiere Qwen3.5-27B sobre Gemini 3.1 Pro y GPT-5.3 Codex porque se rinde en tareas problemáticas en lugar de generar código potencialmente peligroso, como scripts de Perl o NodeJS sin restricciones.

La IA debería elevar tu pensamiento, no reemplazarlo — Koshy John sobre la división oculta en la ingeniería
Koshy John argumenta que los ingenieros que externalizan el pensamiento a la IA para obtener ganancias de productividad a corto plazo están construyendo una base hueca, mientras que aquellos que usan la IA para eliminar tareas tediosas y operar a un nivel más alto crean valor real a largo plazo.