Monarch v3: Paginación KV Inspirada en NES para una Inferencia de LLM 78% Más Rápida

Qué hace Monarch v3
Monarch v3 es una implementación de código abierto de paginación de memoria inspirada en NES para inferencia de transformadores que aborda el crecimiento lineal de la caché KV con la longitud de secuencia. A los 4K tokens, la mayor parte de la caché KV permanece sin usar mientras consume VRAM a máxima precisión.
Cómo funciona
El sistema divide la caché KV en dos regiones:
- Región caliente: Tokens recientes mantenidos a máxima precisión
- Región fría: Tokens antiguos comprimidos a ~20 bytes cada uno (vs 64-128 bytes calientes)
Cuatro componentes trabajan juntos:
- Compresión TurboQuant: Cuantiza KV a enteros de 4 bits con codificación polar y corrección residual, logrando ~97% de reducción de tamaño con ~0.3% de pérdida de perplejidad
- Eliminación por Ventana Deslizante: Los N tokens recientes permanecen calientes por defecto, los tokens antiguos se comprimen a almacenamiento frío
- Promoción Ponderada por Atención: Tokens con alta atención regresan a caliente con mecanismo persistente para evitar trashing
- Intercambio de Páginas: Pequeños lotes de tokens fríos se materializan al acceder con bucle de decodificación local reemplazando multiplicación matricial por lotes
Resultados de Benchmark
Configuración: TinyLlama-1.1B fp16, 50 tokens generados
- Estándar: 17.01 tok/s, 2112 MB VRAM
- Monarch-v3: 30.42 tok/s, 2131 MB VRAM, 512 tokens calientes, 1024 tokens fríos
- Ganancia: +78.7% rendimiento, +0.9% VRAM
Bucle de Decodificación Simplificado
for step in 1..100:
q = project_query(next_token)
# Calcular atención: solo caliente (rápido)
scores_hot = q @ kv_hot.T
# Acceder a frío si alta atención (raro)
if max(scores_hot) < threshold:
kv_cold_promoted = decompress(cold_pages)
scores_cold = q @ kv_cold_promoted.T
# Mover a caliente para siguiente paso
# Agregar, softmax, aplicar atención ...
# Eliminar tokens antiguos de caliente → frío
if len(kv_hot) > window_size:
evict_oldest_to_cold()Estado Actual
- Implementación: Funcionando en Hugging Face Transformers con backend de caché personalizado
- Licencia: Apache 2.0
- Documento: Especificación técnica completa disponible
- Próximo: Fusión de kernel CUDA para descompresión fría planeada
Cómo probarlo
git clone https://github.com/JohannaWeb/Monarch.git
cd Monarch
pip install -r requirements.txt
python train_tinyllama_fp16.py
python src/benchmark_monarch.py \
--model models/tinyllama_fp16 \
--mode both \
--max-new-tokens 100 \
--promotion-threshold 0.15 \
--sticky-threshold 3 \
--jsonLimitaciones
El enfoque se basa en recencia (tokens recientes = alta atención), lo que funciona para la mayoría de tareas pero puede no hacerlo para cargas de trabajo intensivas en recuperación. La extracción de atención está disponible en modelos base pero no en variantes de chat; el respaldo usa paginación solo por ventana.
📖 Leer la fuente completa: r/LocalLLaMA
👀 Ver también

Verificador de alucinaciones estructurales de código abierto para pipelines de agentes de IA
Una nueva herramienta de código abierto proporciona cuatro supresores para detectar fallos estructurales en las canalizaciones de agentes de IA, incluyendo la aplicación de fundamentación, la detección de inyección de prompts, la validación de JSON y la verificación de respuestas de herramientas. Disponible tanto como una API REST como un servidor MCP con un nivel gratuito de 500 solicitudes/mes.

Enrutar el tráfico de la API de Claude para controlar costos tras el cambio de suscripción Max
La suscripción Max de Anthropic ya no cubre el uso de herramientas de terceros, obligando a los usuarios de OpenClaw a la facturación por API. Un proxy de enrutamiento dirige tareas simples a Claude Sonnet ($3/M entrada, $15/M salida) y las complejas a Opus ($5/M entrada, $25/M salida), reduciendo costos sin pérdida de calidad.

IronBee: Capa de verificación de código abierto para Claude Code y Cursor
IronBee es una capa de verificación de código abierto que obliga a los agentes de codificación con IA a probar los cambios en un navegador real antes de completar las tareas. En las pruebas, detectó errores en el 82% de las sesiones de Claude Code que se habrían enviado sin verificación.

Claude Code a escala: Cómo la búsqueda agéntica evita los modos de fallo de RAG en grandes bases de código
Claude Code utiliza un recorrido agéntico del sistema de archivos en lugar de RAG basado en incrustaciones, eliminando los problemas de índices obsoletos. El artículo detalla cinco puntos de extensión (CLAUDE.md, hooks, skills, plugins, MCP) y la filosofía de "el arnés es más importante que el modelo" para repositorios con millones de líneas.