NexQuant: Rust-native 3-Bit-KV-Cache-Engine für Edge-Bereitstellung

✍️ OpenClawRadar📅 Veröffentlicht: 2. April 2026🔗 Source
NexQuant: Rust-native 3-Bit-KV-Cache-Engine für Edge-Bereitstellung
Ad

NexQuant ist eine in Rust native Engine zum Ausführen von Modellen mit hohem Kontext auf Consumer-Hardware, die normalerweise mit Speicherbeschränkungen kämpfen würde. Sie wird als produktionserprobter Nachfolger von Tom Turneys TurboQuant+-Forschung positioniert.

Wichtige technische Details

  • 3-5-fache Speicherreduzierung: 14B-Modelle passen jetzt in 4 GB VRAM oder Unified Memory
  • Nur-MSE-Stabilität: Ersetzt verrauschte QJL-Pfade durch eine stabile Nur-MSE-Trajektorie (27/27 Logiktests bestanden)
  • Integrierte Sparse-V: Sparsity ist in die Echtzeit-Decode-Schleife integriert und nicht nur eine Benchmark-Funktion
  • Zero-Alloc-Prefill: Zu 100 % in sicherem Rust geschrieben für Geschwindigkeit ohne C++-Prototyp-Segfault-Probleme
  • Hardware-Unterstützung: Native Runtime-Dispatch für Metal, CUDA und Vulkan, mit CPU-AVX2/NEON-Backend-Unterstützung für ältere Laptops und Raspberry Pi
Ad

Implementierungsspezifika

Das Projekt verwendet Walsh-Hadamard-Transformationen und Rust-GGUF-Parsing. Es baut auf Tom Turneys PolarQuant/TurboQuant+-Durchbrüchen auf, die bewiesen, dass 3-Bit-KV-Caches mathematisch möglich sind. Die Entwicklung beinhaltete Claude (Anthropic) als Hochgeschwindigkeits-Pair-Programmierer.

Das Ziel ist sicherzustellen, dass mit wachsenden Modellen die Fähigkeit, sie auszuführen, lokal und dezentralisiert bleibt. Das Team sucht speziell Feedback zu Vulkan-SPIR-V-Kerneln.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

MCP-Server verbindet Claude mit CellarTracker-Weinbestand
Werkzeuge

MCP-Server verbindet Claude mit CellarTracker-Weinbestand

Ein Entwickler hat einen MCP-Server erstellt, der Claude direkt mit CellarTracker-Konten verbindet und es ermöglicht, konversationelle Abfragen zu Weinbeständen, Verkostungsnotizen, Kaufhistorie und Trinkfenstern ohne manuelle CSV-Exporte durchzuführen.

OpenClawRadar
Claude Skills überschreibt stillschweigend Anweisungen: Undokumentierte Fallstricke aufgedeckt
Werkzeuge

Claude Skills überschreibt stillschweigend Anweisungen: Undokumentierte Fallstricke aufgedeckt

Ein Reddit-Nutzer, der Claude Skills untersucht, hat mehrere stille Verhaltensweisen entdeckt, die explizite Anweisungen überschreiben, ohne dass eine Dokumentation in <code>skill-creator</code> vorhanden ist. Hier ist, was er gefunden hat.

OpenClawRadar
LivingAgents.ai: Eine webbasierte KI-Agenten-Simulation mit der Claude API
Werkzeuge

LivingAgents.ai: Eine webbasierte KI-Agenten-Simulation mit der Claude API

LivingAgents.ai ist eine webbasierte Simulation, bei der jeder Agent von der Claude API angetrieben wird und Aktionen wie Sammeln, Handeln, Herstellen, Angreifen, Fortpflanzen und dauerhaftes Sterben ausführt, wobei jede Aktion einen echten LLM-Aufruf erfordert.

OpenClawRadar
CC-Ledger: Verfolgen Sie Claude-Code-Kosten pro Sitzung und PR mit lokalem SQLite
Werkzeuge

CC-Ledger: Verfolgen Sie Claude-Code-Kosten pro Sitzung und PR mit lokalem SQLite

CC-Ledger ist ein Rust-Binärprogramm, das in Claude Code eingreift und jede Anfrage in einer lokalen SQLite-Datenbank protokolliert. Erfassen Sie ausufernde Sitzungen live und erhalten Sie Kostenaufschlüsselungen pro PR, ohne einen API-Schlüssel zu benötigen. Enthält macOS-Menüleiste, Web-Dashboard und CLI-Ansichten.

OpenClawRadar