NexQuant: Motor de caché KV de 3 bits nativo en Rust para implementación en el edge

NexQuant es un motor nativo en Rust para ejecutar modelos de alto contexto en hardware de consumo que normalmente tendría dificultades con las limitaciones de memoria. Se posiciona como un sucesor optimizado para producción de la investigación TurboQuant+ de Tom Turney.
Detalles técnicos clave
- Reducción de Memoria 3-5x: Los modelos de 14B ahora caben en 4GB de VRAM o memoria unificada
- Estabilidad Solo-MSE: Reemplaza rutas QJL ruidosas con trayectoria estable solo-MSE (27/27 pruebas lógicas aprobadas)
- Sparse-V Integrado: La dispersión se integra en el bucle de decodificación en tiempo real en lugar de ser solo una característica de referencia
- Prefill Sin Asignación: Escrito en 100% Rust Seguro para velocidad sin problemas de fallos de segmentación de prototipos C++
- Soporte de Hardware: Despacho de tiempo de ejecución nativo para Metal, CUDA y Vulkan, con soporte de backend CPU-AVX2/NEON para portátiles antiguos y Raspberry Pi
Especificaciones de implementación
El proyecto utiliza Transformadas de Walsh-Hadamard y análisis GGUF en Rust. Se basa en los avances PolarQuant/TurboQuant+ de Tom Turney que demostraron que las cachés KV de 3 bits eran matemáticamente posibles. El desarrollo involucró a Claude (Anthropic) como programador pareado de alta velocidad.
El objetivo es garantizar que, a medida que los modelos escalan, la capacidad de ejecutarlos permanezca local y descentralizada. El equipo busca específicamente comentarios sobre los kernels Vulkan SPIR-V.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Formato de Mente Portátil (PMF): Especificación de Agente Independiente del Proveedor con 15 Agentes de Código Abierto
El Formato de Mente Portátil (PMF) es una especificación basada en JSON para definir identidades de agentes de IA que pueden ejecutarse en múltiples modelos y proveedores, incluidos Claude, GPT-4, Gemini, DeepSeek y modelos locales a través de Ollama. Incluye 15 agentes de producción con licencia MIT y convertidores para Claude Code, Cursor, GitHub Copilot y Gemini CLI.

Claude Code v2.1.142: Nuevas banderas de agentes Claude, Opus 4.7 por defecto y correcciones de errores
Claude Code v2.1.142 añade ocho nuevas opciones para configurar sesiones en segundo plano, cambia el modo rápido a Opus 4.7 por defecto y corrige más de una docena de errores, incluido el tiempo de espera de la herramienta MCP, problemas del daemon de suspensión/activación en macOS y bloqueos en unidades de red de Windows.

Memento v1.0: Memoria Persistente Local para Agentes de IA de Programación
Memento v1.0 es una capa de memoria completamente local para agentes de codificación con IA que ejecuta incrustaciones, almacenamiento y búsqueda en tu máquina sin dependencias en la nube. Utiliza incrustaciones all-MiniLM-L6-v2, indexación HNSW y es compatible con múltiples IDEs con 17 herramientas MCP.

Sentido: SDK de Go para aserciones de prueba impulsadas por LLM y extracción de texto estructurado
Sense es un SDK de Go que utiliza Claude para dos funciones principales: evaluar resultados no deterministas en pruebas con aserciones en lenguaje natural, y extraer estructuras tipadas de texto no estructurado mediante reflexión y tool_use forzado.