V100 32GB로 Qwen 3.6 27B MTP 추론: 54 t/s 달성 방법

r/LocalLLaMA의 한 사용자가 PCIe 어댑터를 사용한 V100 32GB SXM 모듈에서 Multi-Token Prediction(MTP)으로 Qwen 3.6 27B를 실행한 인상적인 결과를 보고했습니다. 이 설정은 am17an의 llama.cpp MTP 브랜치와 해당 MTP GGUF 양자화 파일을 사용합니다. 주요 사양: Q8_0 KV 캐시(200k 캐시 한도), llama-server를 통해 VS Code Copilot 백엔드로 실행.

성능 수치

MTP 없음: 29-30 토큰/초
MTP 사용: 54-55 토큰/초(150W 전력 제한)
50k 토큰 컨텍스트 이후: 40-45 t/s로 하락

브랜치: am17an의 MTP 포크. 빌드 및 실행은 간단했습니다 — '한 번에 풀(pull)하고 빌드'했으며 llama-server가 문제없이 실행되었습니다. 이 설정은 도구 호출과 하위 에이전트를 잘 처리했으며, VRAM 제한(32GB)에도 불구하고 '매우 통찰력 있는 코드 리뷰와 리팩토링'을 제공했습니다.

이는 V100과 같은 구형 데이터센터 하드웨어에서 LLM을 실행하는 개발자에게 특히 관련이 있습니다. MTP는 이 모델의 처리량을 효과적으로 두 배로 늘려 코딩 어시스턴트 워크로드에 실질적인 이점을 보여줍니다.

📖 전체 소스 읽기: r/LocalLLaMA

V100 32GB에서 MTP를 사용한 Qwen 3.6 27B: llama.cpp 브랜치를 통해 54 t/s

성능 수치

👀 See Also

VS Code를 위한 Kotlin 공식 지원, 알파 버전 출시 — IntelliJ의 언어 서버 기반

Apple Silicon에서 AI 에이전트를 위한 로컬 음성 제어 설정

DeepSeek Reasonix: 높은 캐싱과 낮은 비용의 네이티브 코딩 에이전트

넷플릭스, 허깅 페이스에 비디오 객체 및 상호작용 삭제 모델 'VOID' 공개