FairyFuse, CPU에서 삼진 가중치 곱셈 없는 추론을 통해 29.6배 커널 속도 향상 달성
FairyFuse는 상용 CPU에서 삼진법(값이 {-1,0,+1}) LLM을 위한 추론 시스템입니다. 각 광역 선형 레이어의 8개 실수값 서브-GEMV를 마스크된 덧셈과 뺄셈을 사용하여 단일 AVX-512 루프로 융합함으로써 모든 부동소수점 곱셈을 제거합니다. Roofline 분석에 따르면, 16배의 가중치 압축은 대역폭이 제한된 CPU에서 메모리 바운드 GEMV를 컴퓨트 영역으로 이동시켜 기존의 역양자화 및 곱셈 커널보다 29.6배의 커널 속도 향상을 제공합니다. 주목할 점은, 이 접근 방식은 GPU에서는 거의 이점이 없다는 것입니다.
주요 결과
- 종단 간 처리량: 단일 Intel Xeon 8558P에서 초당 32.4 토큰.
- llama.cpp Q4_K_M과 비교: 거의 손실 없는 품질로 1.24배 더 빠름 (WikiText-2 혼란도 5.52 vs. FP16 5.47; 다운스트림 정확도 66.0% vs. FP16 66.0%).
- 가중치 압축: 삼진 표현으로 인해 16배 (가중치당 2비트) — FP로의 역양자화 불필요.
- 기법: 마스크된 덧셈/뺄셈을 사용하여 8개의 서브-GEMV를 단일 AVX-512 루프로 융합 — 부동소수점 곱셈이 전혀 없음.
배경
이전 연구(Fairy2i)는 삼진 LLM이 FP16 품질과 일치할 수 있음을 보여주었지만, 런타임은 구조를 활용하지 못했습니다. FairyFuse는 AVX-512를 탑재한 x86 CPU에서 곱셈 없는 추론으로 재설계함으로써 그 격차를 해소합니다.
📖 전체 소스 읽기: HN LLM Tools
👀 See Also

클로드 코드 2.1.136: 액션 안전, 하드 거부 규칙 및 보안 모니터
Claude Code CC 2.1.136은 행동 안전 및 진실된 보고 요구 사항을 추가하고, 네 번째 사용자 지정 규칙 범주로 hard_deny를 도입하며, 보안 차단을 무조건적인 하드 블록과 사용자 승인 가능한 소프트 블록으로 분할합니다.

OpenClaw 2026.4.2와 2026.3.31이 로컬 LLM 연결을 차단합니다
OpenClaw 버전 2026.4.2와 2026.3.31이 로컬에서 호스팅되는 Ollama 인스턴스에 대한 연결 시간 초과를 일으키고 있습니다. 이 문제는 로컬에서 실행되는 Ubuntu 시스템에 연결할 때 발생하며, 오류 로그에는 LLM 요청 시간 초과 및 장애 조치 결정이 표시됩니다.

r/ClaudeAI 서브레딧 주간 방문자 수가 50만에서 190만으로 급증
r/ClaudeAI 서브레딧은 2025년 11월 주간 방문자 약 25만 명에서 2026년 3월 190만 명으로 증가했으며, 구독자 수는 약 8만5천 명 수준을 유지했습니다.

샤오미, MiMo-V2.5-Pro 오픈소스 공개: 코딩 벤치마크에서 클로드 오퍼스 4.6에 근접
샤오미가 오픈소스 코딩 모델 MiMo-V2.5-Pro를 출시했습니다. 이 모델은 대학 컴파일러 프로젝트에서 233/233점을 기록했으며, 자율적으로 비디오 편집기를 만들었고, SWE-Bench와 Terminal-Bench에서 Claude Opus 4.6의 상위 1% 성능을 보였습니다.