NexQuant: エッジデプロイメント向けRustネイティブ3ビットKVキャッシュエンジン

NexQuantは、通常はメモリ制約に悩まされるコンシューマーハードウェア上で高コンテキストモデルを実行するためのRustネイティブエンジンです。Tom TurneyのTurboQuant+研究の後継として、生産環境で実証済みの位置付けとなっています。
主な技術詳細
- 3〜5倍のメモリ削減: 14Bモデルが4GBのVRAMまたは統合メモリに収まるようになりました
- MSEのみの安定性: ノイズの多いQJLパスを安定したMSEのみの軌道に置き換え(27/27の論理テストを通過)
- 統合されたスパース-V: スパース性がベンチマーク機能だけでなく、リアルタイムデコードループに統合されています
- ゼロアロケーションプリフィル: C++プロトタイプのセグメンテーションフォールト問題なしに高速化するため、100% Safe Rustで記述
- ハードウェアサポート: Metal、CUDA、Vulkanのネイティブランタイムディスパッチ、古いラップトップやRaspberry Pi向けのCPU-AVX2/NEONバックエンドサポート
実装の詳細
このプロジェクトはウォルシュ・アダマール変換とRust GGUFパーシングを使用しています。3ビットKVキャッシュが数学的に可能であることを証明したTom TurneyのPolarQuant/TurboQuant+の画期的成果を基盤としています。開発には高速ペアプログラマーとしてClaude(Anthropic)が関与しました。
目標は、モデルがスケールするにつれ、それらをローカルかつ分散して実行する能力を維持することです。チームは特にVulkan SPIR-Vカーネルに関するフィードバックを求めています。
📖 完全なソースを読む: r/LocalLLaMA
👀 See Also

マルチエージェント俳句システム、複素数理論問題でClaude Opusと同等の性能を15分の1のコストで達成
Redditでの実験では、2つの俳句エージェントシステム(生成器+監査役)が、難しいフェルマーの小定理の証明においてClaude Opus 4.5と同一の4/4スコアを達成し、1クエリあたり約0.004ドル(Opusは0.06ドル)のコストで済むことが示されました。

Tokenmeter: オフラインでClaude Codeのトークン使用量を追跡する無料Windowsアプリ
Tokenmeterは、ローカルのClaude Code .jsonlファイルを読み取り、トークン使用量、推定コスト、キャッシュ節約量、90日間のアクティビティヒートマップをすべてオフラインで表示する、無料のオープンソースWindowsアプリです。

Org Studio: マルチエージェントAIチームを管理するためのオープンソースダッシュボード
Org Studioは、組織設計の原則を適用してAIエージェントのチームを調整するオープンソースのダッシュボードで、OpenClawとHermes Agentの両方のランタイムをネイティブでサポートしています。チームトポロジー管理、イベント駆動型タスクボード、タスクコメントでエージェント同士が互いにメンションできるクロスランタイム通信などの機能を備えています。

Claude Code リモートコントロール:あらゆるデバイスからローカルセッションを継続
Claude Code リモートコントロールは、ローカルの Claude Code セッションを他のデバイス(電話やブラウザなど)から継続して利用できるようにし、すべてを自分のマシン上で実行し続けます。これは、Pro および Max プランで研究プレビューとして利用可能で、認証とワークスペースの信頼設定が必要です。