NexQuant: Motor de cache KV de 3 bits nativo em Rust para implantação em borda

✍️ OpenClawRadar📅 Publicado: April 2, 2026🔗 Source
NexQuant: Motor de cache KV de 3 bits nativo em Rust para implantação em borda
Ad

NexQuant é um mecanismo nativo em Rust para executar modelos de alto contexto em hardware de consumo que normalmente teria dificuldades com restrições de memória. Ele é posicionado como um sucessor robusto para produção da pesquisa TurboQuant+ de Tom Turney.

Detalhes técnicos principais

  • Redução de Memória 3-5x: Modelos de 14B agora cabem em 4GB de VRAM ou memória unificada
  • Estabilidade Apenas MSE: Substitui caminhos QJL ruidosos por trajetória estável apenas MSE (27/27 testes lógicos passados)
  • Sparse-V Integrado: A esparsidade é integrada no loop de decodificação em tempo real, não apenas sendo um recurso de benchmark
  • Prefill Sem Alocação: Escrito em 100% Rust Seguro para velocidade sem problemas de segfault do protótipo C++
  • Suporte de Hardware: Despacho de runtime nativo para Metal, CUDA e Vulkan, com suporte de backend CPU-AVX2/NEON para laptops antigos e Raspberry Pi
Ad

Especificidades de implementação

O projeto usa Transformadas de Walsh-Hadamard e análise GGUF em Rust. Ele se baseia nos avanços PolarQuant/TurboQuant+ de Tom Turney que provaram que caches KV de 3 bits eram matematicamente possíveis. O desenvolvimento envolveu Claude (Anthropic) como um programador em par de alta velocidade.

O objetivo é garantir que, à medida que os modelos escalam, a capacidade de executá-los permaneça local e descentralizada. A equipe está especificamente buscando feedback sobre kernels Vulkan SPIR-V.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Audacity-MCP: Integração Claude IA para Edição de Áudio Local com 131 Ferramentas
Tools

Audacity-MCP: Integração Claude IA para Edição de Áudio Local com 131 Ferramentas

Audacity-MCP conecta Claude ao Audacity via interface de pipe, permitindo edição de áudio controlada por voz com 131 ferramentas, 9 pipelines automatizados e transcrição local com Whisper sem dependências de nuvem.

OpenClawRadar
hiresTI: Reprodutor TIDAL Nativo para Linux com Suporte a OpenClaw/MCP
Tools

hiresTI: Reprodutor TIDAL Nativo para Linux com Suporte a OpenClaw/MCP

hiresTI é um cliente nativo para desktop Linux do TIDAL, focado em reprodução estável, saída de áudio de alta qualidade, uma interface GTK4/Libadwaita e integração com OpenClaw via MCP para controle remoto. O aplicativo combina uma camada de interface em Python com um núcleo de áudio em Rust.

OpenClawRadar
Ferramenta Gratuita de Teste de Autenticação de Bot Web da Fingerprint para Desenvolvedores de Agentes de IA
Tools

Ferramenta Gratuita de Teste de Autenticação de Bot Web da Fingerprint para Desenvolvedores de Agentes de IA

A Fingerprint lançou um endpoint público e gratuito para testar implementações de Web Bot Auth. A ferramenta valida assinaturas criptográficas em requisições HTTP, ajudando desenvolvedores de bots e agentes de IA a garantir que sua configuração WBA funcione corretamente antes de ir para produção.

OpenClawRadar
Engenharia Reversa do Apple Neural Engine para Treinar Modelos MicroGPT
Tools

Engenharia Reversa do Apple Neural Engine para Treinar Modelos MicroGPT

Um desenvolvedor engenhou reversamente as APIs privadas do Neural Engine da Apple para criar um pipeline de treinamento para um modelo MicroGPT de 110 milhões de parâmetros, alcançando eficiência energética de 6,6 TFLOPs/watt no hardware Mac M4.

OpenClawRadar