ik_llama.cpp MTP를 사용한 단일 3090에서의 Qwen 3.5 122B MoE 35 t/s

한 개발자가 완전히 로컬 환경에서 단일 데스크톱으로 Qwen 3.5 122B MoE를 단일 3090만 사용하여 초당 35토큰을 달성했다고 보고했습니다. 핵심은 llama.cpp의 포크로, 오프로드된 전문가에 대한 MTP(다중 토큰 예측)를 수정한 것입니다.
하드웨어 구성
- AMD 9900X CPU
- 192GB DDR5-5200 RAM (일명 "비밀 무기")
- 3090 2개 (Ti + 일반), NVLink 없음
카드 1은 워커 실행: Unsloth IQ3_S MTP GGUF와 204K 컨텍스트를 사용한 Qwen3.5-122B-A10B. 75%의 전문가 레이어가 세부 -ot 플래그를 통해 CPU로 오프로드됩니다. 카드 2는 리즈너 실행: 135 t/s, 262K 컨텍스트의 MTP를 사용한 Qwen3.6-35B-A3B Q4_K_XL.
추가 CPU 전용 인스턴스가 백그라운드 처리를 담당: Dialectic (35B heretical Q8), Scribe-Logos (Gemma4 19B), Moonshot (Gemma4 2B) — 총 약 19GB RAM 사용.
ik_llama.cpp 발견
기본 llama.cpp의 MTP는 각 추측된 토큰의 전문가를 DDR5를 통해 순차적으로 평가하는데, 추론 콘텐츠에서는 실제로 성능이 저하됩니다—드래프트 오버헤드가 수용 속도 향상을 압도합니다. ik 포크는 추측된 토큰에 대한 전문가 읽기를 배치 처리하는 융합 MoE 연산을 구현하여 MTP를 +4% 이득에서 +20% 이득으로 전환합니다. 개발자는 이 포크를 사용하여 단일 3090에서 122B 모델로 35 t/s 디코딩을 보고했습니다.
MoE 모델에서 RAM으로 전문가를 오프로드하는 경우, MTP를 포기하기 전에 ik_llama.cpp를 시도해보세요.
총 빌드 비용
- RAM 약 $1600
- 3090 2개 약 $1600
- 기타 약 $400
- 운영 비용: 전기세만
📖 전체 출처 보기: r/openclaw
👀 See Also

사용자 경험에서 나온 OpenClaw 설정 팁: Gmail MCP, 프로필 플래그, 네트워킹 문제
Mac에서 UTM과 Ubuntu VM을 사용하여 OpenClaw를 실행하는 사용자가 겪은 특정 구성 문제를 공유했습니다: Gmail MCP 서버는 body 매개변수 대신 html_body가 필요하며, 하드코딩된 dev 신원을 피하려면 --profile prod 플래그가 필요하고, API 키는 paste-token 명령을 통해 auth-profiles.json에 배치해야 합니다.

OpenClaw에서 별도의 작업 공간으로 서브 에이전트 설정하는 방법
여러 하위 에이전트를 격리된 작업 공간과 다양한 모델로 구성하는 커뮤니티 솔루션

Claude Code v2.1.36: Opus 4.6에 빠른 모드가 추가되었습니다
Anthropic이 Claude Code v2.1.36을 출시하며 최신 Opus 4.6 모델에 Fast Mode 지원을 추가해 코드 생성 및 분석 속도를 크게 향상시켰습니다.

1000시간의 경험에서 얻은 실용적인 AI 코딩 전략
레딧 게시물은 AI 코딩 에이전트를 효과적으로 사용하기 위한 구체적인 프롬프팅 수준과 워크플로우 전략을 설명하며, AI를 주니어 개발자처럼 대우하고, 단계적 구현, 지시 파일 사용 등을 포함합니다.