Claude 4.6 Opus 추론 기능이 MLX 양자화를 통해 Apple Silicon용으로 14GB로 경량화되었습니다.

✍️ OpenClawRadar📅 게시일: March 7, 2026🔗 Source
Claude 4.6 Opus 추론 기능이 MLX 양자화를 통해 Apple Silicon용으로 14GB로 경량화되었습니다.
Ad

한 개발자가 Claude 4.6 Opus의 추론 능력을 Apple Silicon 하드웨어에 가져오는 로컬 AI 모델을 성공적으로 양자화하여 성능을 유지하면서 메모리 사용량을 크게 줄였습니다.

모델과 그 기원

이 작업은 Claude 4.6 Opus 추론 궤적에서 증류된 Qwen 3.5 27B 버전을 중심으로 진행되었습니다. 개발자는 단순히 코드를 자동 완성하는 것이 아닌 '생각'할 수 있는 모델을 원했으며, Opus의 특징을 '신중하고 분석적이며 다른 모델들이 놓치는 미묘한 아키텍처 결함을 포착한다'고 설명했습니다. 이 증류 버전은 그 '생각'의 구조를 오픈 가중치 아키텍처에 가져옵니다.

양자화 과정

원본 모델은 BF16 형식으로 55.6GB였으며, 개발자는 이 크기가 대부분의 로컬 설정에서 '시작조차 불가능한' 수준으로 전체 메모리 풀을 소비한다고 지적했습니다. 이를 해결하기 위해 MLX를 사용해 Apple Silicon용으로 모델을 양자화하여 4비트 정밀도로 변환했습니다. 목표는 고품질의 Opus 추론 능력을 유지하면서 기술 계획 및 복잡한 논리 작업에 일상적으로 사용할 수 있을 만큼 가볍게 만드는 것이었습니다.

결과와 성능

  • 용량: 55GB에서 14GB로 감소
  • 속도: M4 Pro에서 약 16 토큰/초
  • 추론: 전체 <think> 블록을 유지하여 모델이 논리를 검증하고, 엣지 케이스를 시뮬레이션하며, 최종 답변을 제시하기 전에 자체 수정할 수 있도록 함

가용성과 요구사항

개발자는 가중치를 Hugging Face에 업로드했습니다. 이 모델은 프라이빗하고 고급 수준의 논리 및 기술 계획을 완전히 오프라인에서 실행하려면 24GB 이상의 RAM을 가진 Mac이 필요합니다.

📖 전체 출처 읽기: r/LocalLLaMA

Ad

👀 See Also

🦀
Tools

MTP + 통합 메모리가 RTX 5090에서 llama.cpp 추론 성능을 30% 향상시키다

llama.cpp에서 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1과 함께 MTP 추측을 활성화하면 RTX 5090 및 128GB 시스템 RAM에서 Qwen3.6-27B Q8_0 모델의 처리량이 49 tok/sec에서 64 tok/sec로 향상됩니다.

OpenClawRadar
soul.py는 간단한 파일 기반 접근 방식으로 로컬 LLM에 영구 메모리를 추가합니다.
Tools

soul.py는 간단한 파일 기반 접근 방식으로 로컬 LLM에 영구 메모리를 추가합니다.

soul.py는 두 개의 마크다운 파일을 사용하여 신원 정보와 대화 기록을 저장함으로써 Ollama, OpenAI, Anthropic 모델과 함께 작동하며 데이터베이스나 서버가 필요 없는 LLM에 지속적인 메모리를 추가하는 Python 라이브러리입니다.

OpenClawRadar
OpenGauge: 로컬에서 LLM 에이전트 비용을 추적하는 오픈소스 도구
Tools

OpenGauge: 로컬에서 LLM 에이전트 비용을 추적하는 오픈소스 도구

OpenGauge는 OpenClaw와 같은 LLM 에이전트의 API 호출을 모니터링하는 오픈소스 도구로, 토큰 사용량, 비용, 지연 시간을 로컬 SQLite 데이터베이스에 기록합니다. 자동 로깅을 위한 프록시 모드, 상세한 비용 통계, 그리고 무한 루프를 방지하는 서킷 브레이커 기능을 포함합니다.

OpenClawRadar
파일럿 쉘: 클로드 코드를 위한 구조화된 워크플로우 레이어
Tools

파일럿 쉘: 클로드 코드를 위한 구조화된 워크플로우 레이어

Pilot Shell은 Claude Code 위에 사양 기반 TDD 워크플로우, 품질 후크, 컨텍스트 엔지니어링 및 토큰 최적화를 추가하는 오픈소스 레이어로, 다중 에이전트 프레임워크의 복잡성 없이 사용할 수 있습니다.

OpenClawRadar