NexQuant: 엣지 배포를 위한 Rust 네이티브 3비트 KV 캐시 엔진

✍️ OpenClawRadar📅 게시일: April 2, 2026🔗 Source
NexQuant: 엣지 배포를 위한 Rust 네이티브 3비트 KV 캐시 엔진
Ad

NexQuant는 일반적으로 메모리 제약으로 어려움을 겪는 소비자용 하드웨어에서 고용량 모델을 실행하기 위한 Rust 네이티브 엔진입니다. Tom Turney의 TurboQuant+ 연구를 계승하는 프로덕션 준비 완료 후속작으로 자리매김하고 있습니다.

주요 기술 사항

  • 3-5배 메모리 감소: 14B 모델이 이제 4GB VRAM 또는 통합 메모리에 적합
  • MSE-Only 안정성: 불안정한 QJL 경로를 안정적인 MSE-only 경로로 대체 (27/27 논리 테스트 통과)
  • 통합 Sparse-V: 희소성이 벤치마크 기능에 그치지 않고 실시간 디코드 루프에 통합됨
  • Zero-Alloc Prefill: C++ 프로토타입 세그먼트 오류 문제 없이 속도를 위해 100% Safe Rust로 작성
  • 하드웨어 지원: Metal, CUDA, Vulkan에 대한 네이티브 런타임 디스패치 및 구형 노트북과 라즈베리 파이를 위한 CPU-AVX2/NEON 백엔드 지원

구현 세부사항

이 프로젝트는 Walsh-Hadamard 변환과 Rust GGUF 파싱을 사용합니다. 3비트 KV 캐시가 수학적으로 가능함을 증명한 Tom Turney의 PolarQuant/TurboQuant+ 돌파구를 기반으로 구축되었습니다. 개발에는 고속 페어 프로그래머로서 Claude(Anthropic)가 참여했습니다.

목표는 모델이 확장됨에 따라 이를 실행하는 능력이 로컬 및 분산 방식으로 유지되도록 하는 것입니다. 팀은 특히 Vulkan SPIR-V 커널에 대한 피드백을 구하고 있습니다.

📖 전체 원문 읽기: r/LocalLLaMA

Ad

👀 See Also

스케일즈 데스크톱 AI 에이전트, 클로드로 구축, 클리피 스타일 마스코트 특징
Tools

스케일즈 데스크톱 AI 에이전트, 클로드로 구축, 클리피 스타일 마스코트 특징

Skales는 Windows와 macOS에서 로컬로 실행되는 데스크톱 AI 에이전트로, Claude(OpenRouter/Anthropic API를 통해)를 사용하여 추론과 도구 실행을 처리합니다. 종이클립 스킨 참조가 있는 플로팅 데스크톱 버디 마스코트를 포함하며, 이메일 보내기, 파일 관리, 웹 브라우징, 캘린더 관리와 같은 명령을 실행할 수 있습니다.

OpenClawRadar
마이크로소프트 VibeVoice: 60분 ASR 및 90분 TTS 모델 오픈소스화
Tools

마이크로소프트 VibeVoice: 60분 ASR 및 90분 TTS 모델 오픈소스화

VibeVoice는 Microsoft의 오픈소스 음성 AI 모델 제품군으로, ASR(60분 단일 패스, 화자 분리, 50개 이상 언어)과 TTS(90분 다중 화자, 실시간 스트리밍)를 포함합니다. 7.5Hz 연속 음성 토크나이저와 next-token diffusion을 사용합니다.

OpenClawRadar
🦀
Tools

Voker, 의도/수정/해결 프리미티브를 갖춘 에이전트 분석 플랫폼 출시

YC S24 스타트업 Voker가 경량 SDK를 통해 사용자 의도, 수정, 해결을 자동으로 주석 처리하는 에이전트 분석 플랫폼을 출시했습니다. 데이터 엔지니어링에 LLM을 사용하지 않고 셀프 서비스 대시보드를 제공합니다.

OpenClawRadar
Clawpage: OpenClaw 대화를 정적 웹사이트로 변환하는 도구
Tools

Clawpage: OpenClaw 대화를 정적 웹사이트로 변환하는 도구

한 개발자가 OpenClaw 세션 기록을 정적 웹 페이지로 변환하여 가치 있는 대화, 주고받은 내용, 연구 및 디버깅 과정을 보존하는 Clawpage라는 스킬을 만들었습니다. 이 도구는 GitHub에서 이용할 수 있습니다.

OpenClawRadar