NexQuant: Motor de caché KV de 3 bits nativo en Rust para implementación en el edge

✍️ OpenClawRadar📅 Publicado: 2 de abril de 2026🔗 Source
NexQuant: Motor de caché KV de 3 bits nativo en Rust para implementación en el edge
Ad

NexQuant es un motor nativo en Rust para ejecutar modelos de alto contexto en hardware de consumo que normalmente tendría dificultades con las limitaciones de memoria. Se posiciona como un sucesor optimizado para producción de la investigación TurboQuant+ de Tom Turney.

Detalles técnicos clave

  • Reducción de Memoria 3-5x: Los modelos de 14B ahora caben en 4GB de VRAM o memoria unificada
  • Estabilidad Solo-MSE: Reemplaza rutas QJL ruidosas con trayectoria estable solo-MSE (27/27 pruebas lógicas aprobadas)
  • Sparse-V Integrado: La dispersión se integra en el bucle de decodificación en tiempo real en lugar de ser solo una característica de referencia
  • Prefill Sin Asignación: Escrito en 100% Rust Seguro para velocidad sin problemas de fallos de segmentación de prototipos C++
  • Soporte de Hardware: Despacho de tiempo de ejecución nativo para Metal, CUDA y Vulkan, con soporte de backend CPU-AVX2/NEON para portátiles antiguos y Raspberry Pi
Ad

Especificaciones de implementación

El proyecto utiliza Transformadas de Walsh-Hadamard y análisis GGUF en Rust. Se basa en los avances PolarQuant/TurboQuant+ de Tom Turney que demostraron que las cachés KV de 3 bits eran matemáticamente posibles. El desarrollo involucró a Claude (Anthropic) como programador pareado de alta velocidad.

El objetivo es garantizar que, a medida que los modelos escalan, la capacidad de ejecutarlos permanezca local y descentralizada. El equipo busca específicamente comentarios sobre los kernels Vulkan SPIR-V.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también

Formato de Mente Portátil (PMF): Especificación de Agente Independiente del Proveedor con 15 Agentes de Código Abierto
Herramientas

Formato de Mente Portátil (PMF): Especificación de Agente Independiente del Proveedor con 15 Agentes de Código Abierto

El Formato de Mente Portátil (PMF) es una especificación basada en JSON para definir identidades de agentes de IA que pueden ejecutarse en múltiples modelos y proveedores, incluidos Claude, GPT-4, Gemini, DeepSeek y modelos locales a través de Ollama. Incluye 15 agentes de producción con licencia MIT y convertidores para Claude Code, Cursor, GitHub Copilot y Gemini CLI.

OpenClawRadar
Claude Code v2.1.142: Nuevas banderas de agentes Claude, Opus 4.7 por defecto y correcciones de errores
Herramientas

Claude Code v2.1.142: Nuevas banderas de agentes Claude, Opus 4.7 por defecto y correcciones de errores

Claude Code v2.1.142 añade ocho nuevas opciones para configurar sesiones en segundo plano, cambia el modo rápido a Opus 4.7 por defecto y corrige más de una docena de errores, incluido el tiempo de espera de la herramienta MCP, problemas del daemon de suspensión/activación en macOS y bloqueos en unidades de red de Windows.

OpenClawRadar
Memento v1.0: Memoria Persistente Local para Agentes de IA de Programación
Herramientas

Memento v1.0: Memoria Persistente Local para Agentes de IA de Programación

Memento v1.0 es una capa de memoria completamente local para agentes de codificación con IA que ejecuta incrustaciones, almacenamiento y búsqueda en tu máquina sin dependencias en la nube. Utiliza incrustaciones all-MiniLM-L6-v2, indexación HNSW y es compatible con múltiples IDEs con 17 herramientas MCP.

OpenClawRadar
Sentido: SDK de Go para aserciones de prueba impulsadas por LLM y extracción de texto estructurado
Herramientas

Sentido: SDK de Go para aserciones de prueba impulsadas por LLM y extracción de texto estructurado

Sense es un SDK de Go que utiliza Claude para dos funciones principales: evaluar resultados no deterministas en pruebas con aserciones en lenguaje natural, y extraer estructuras tipadas de texto no estructurado mediante reflexión y tool_use forzado.

OpenClawRadar