NexQuant: Rust-native 3-Bit-KV-Cache-Engine für Edge-Bereitstellung

NexQuant ist eine in Rust native Engine zum Ausführen von Modellen mit hohem Kontext auf Consumer-Hardware, die normalerweise mit Speicherbeschränkungen kämpfen würde. Sie wird als produktionserprobter Nachfolger von Tom Turneys TurboQuant+-Forschung positioniert.
Wichtige technische Details
- 3-5-fache Speicherreduzierung: 14B-Modelle passen jetzt in 4 GB VRAM oder Unified Memory
- Nur-MSE-Stabilität: Ersetzt verrauschte QJL-Pfade durch eine stabile Nur-MSE-Trajektorie (27/27 Logiktests bestanden)
- Integrierte Sparse-V: Sparsity ist in die Echtzeit-Decode-Schleife integriert und nicht nur eine Benchmark-Funktion
- Zero-Alloc-Prefill: Zu 100 % in sicherem Rust geschrieben für Geschwindigkeit ohne C++-Prototyp-Segfault-Probleme
- Hardware-Unterstützung: Native Runtime-Dispatch für Metal, CUDA und Vulkan, mit CPU-AVX2/NEON-Backend-Unterstützung für ältere Laptops und Raspberry Pi
Implementierungsspezifika
Das Projekt verwendet Walsh-Hadamard-Transformationen und Rust-GGUF-Parsing. Es baut auf Tom Turneys PolarQuant/TurboQuant+-Durchbrüchen auf, die bewiesen, dass 3-Bit-KV-Caches mathematisch möglich sind. Die Entwicklung beinhaltete Claude (Anthropic) als Hochgeschwindigkeits-Pair-Programmierer.
Das Ziel ist sicherzustellen, dass mit wachsenden Modellen die Fähigkeit, sie auszuführen, lokal und dezentralisiert bleibt. Das Team sucht speziell Feedback zu Vulkan-SPIR-V-Kerneln.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

MCP-Server verbindet Claude mit CellarTracker-Weinbestand
Ein Entwickler hat einen MCP-Server erstellt, der Claude direkt mit CellarTracker-Konten verbindet und es ermöglicht, konversationelle Abfragen zu Weinbeständen, Verkostungsnotizen, Kaufhistorie und Trinkfenstern ohne manuelle CSV-Exporte durchzuführen.

Claude Skills überschreibt stillschweigend Anweisungen: Undokumentierte Fallstricke aufgedeckt
Ein Reddit-Nutzer, der Claude Skills untersucht, hat mehrere stille Verhaltensweisen entdeckt, die explizite Anweisungen überschreiben, ohne dass eine Dokumentation in <code>skill-creator</code> vorhanden ist. Hier ist, was er gefunden hat.

LivingAgents.ai: Eine webbasierte KI-Agenten-Simulation mit der Claude API
LivingAgents.ai ist eine webbasierte Simulation, bei der jeder Agent von der Claude API angetrieben wird und Aktionen wie Sammeln, Handeln, Herstellen, Angreifen, Fortpflanzen und dauerhaftes Sterben ausführt, wobei jede Aktion einen echten LLM-Aufruf erfordert.

CC-Ledger: Verfolgen Sie Claude-Code-Kosten pro Sitzung und PR mit lokalem SQLite
CC-Ledger ist ein Rust-Binärprogramm, das in Claude Code eingreift und jede Anfrage in einer lokalen SQLite-Datenbank protokolliert. Erfassen Sie ausufernde Sitzungen live und erhalten Sie Kostenaufschlüsselungen pro PR, ohne einen API-Schlüssel zu benötigen. Enthält macOS-Menüleiste, Web-Dashboard und CLI-Ansichten.