NexQuant: Motor de caché KV de 3 bits nativo en Rust para implementación en el edge

✍️ OpenClawRadar📅 Publicado: 2 de abril de 2026🔗 Source

NexQuant es un motor nativo en Rust para ejecutar modelos de alto contexto en hardware de consumo que normalmente tendría dificultades con las limitaciones de memoria. Se posiciona como un sucesor optimizado para producción de la investigación TurboQuant+ de Tom Turney.

Detalles técnicos clave

Reducción de Memoria 3-5x: Los modelos de 14B ahora caben en 4GB de VRAM o memoria unificada
Estabilidad Solo-MSE: Reemplaza rutas QJL ruidosas con trayectoria estable solo-MSE (27/27 pruebas lógicas aprobadas)
Sparse-V Integrado: La dispersión se integra en el bucle de decodificación en tiempo real en lugar de ser solo una característica de referencia
Prefill Sin Asignación: Escrito en 100% Rust Seguro para velocidad sin problemas de fallos de segmentación de prototipos C++
Soporte de Hardware: Despacho de tiempo de ejecución nativo para Metal, CUDA y Vulkan, con soporte de backend CPU-AVX2/NEON para portátiles antiguos y Raspberry Pi

Especificaciones de implementación

El proyecto utiliza Transformadas de Walsh-Hadamard y análisis GGUF en Rust. Se basa en los avances PolarQuant/TurboQuant+ de Tom Turney que demostraron que las cachés KV de 3 bits eran matemáticamente posibles. El desarrollo involucró a Claude (Anthropic) como programador pareado de alta velocidad.

El objetivo es garantizar que, a medida que los modelos escalan, la capacidad de ejecutarlos permanezca local y descentralizada. El equipo busca específicamente comentarios sobre los kernels Vulkan SPIR-V.

📖 Read the full source: r/LocalLLaMA

👀 Ver también

Herramientas

CtxSnap Extensión de VS Code Rastrea Cambios de Archivos para Sesiones de Claude

CtxSnap es una extensión de VS Code que rastrea qué archivos cambiaron desde tu última sesión con Claude y los empaqueta en un bloque de transferencia listo para pegar con el contenido de los archivos y una barra de presupuesto de tokens calibrada para la ventana de contexto de 200k de Claude.

19 abr 2026, 17:45 UTC

OpenClawRadar

Herramientas

Sandra: MCP de memoria gráfica persistente de código abierto para Claude

Sandra es un backend de memoria de grafos + vectores con un servidor MCP nativo que le da a Claude memoria estructurada persistente entre sesiones, compatible con búsqueda exacta, difusa y semántica.

11 may 2026, 14:25 UTC

OpenClawRadar

Herramientas

Solución para la pérdida de memoria de OpenClaw usando el complemento Mem0.

Los agentes de OpenClaw experimentan pérdida de memoria debido a la compactación de contexto que reescribe archivos como MEMORY.md. El complemento Mem0 soluciona esto moviendo la memoria fuera de la ventana de contexto con funciones de recuperación automática y captura automática.

5 abr 2026, 05:45 UTC

OpenClawRadar

Herramientas

Files.md: Aplicación de notas Markdown de código abierto, local-primero y con diseño compatible con LLM

Files.md es una aplicación de markdown de código abierto y centrada en el ámbito local para notas, tareas y diarios. 886 estrellas, construida en Go, funciona sin conexión, sincroniza mediante iCloud/Dropbox/servidor autoalojado o la aplicación beta alojada en files.md.

18 may 2026, 22:16 UTC

OpenClawRadar