V100 32GB에서 MTP를 사용한 Qwen 3.6 27B: llama.cpp 브랜치를 통해 54 t/s

r/LocalLLaMA의 한 사용자가 PCIe 어댑터를 사용한 V100 32GB SXM 모듈에서 Multi-Token Prediction(MTP)으로 Qwen 3.6 27B를 실행한 인상적인 결과를 보고했습니다. 이 설정은 am17an의 llama.cpp MTP 브랜치와 해당 MTP GGUF 양자화 파일을 사용합니다. 주요 사양: Q8_0 KV 캐시(200k 캐시 한도), llama-server를 통해 VS Code Copilot 백엔드로 실행.
성능 수치
- MTP 없음: 29-30 토큰/초
- MTP 사용: 54-55 토큰/초(150W 전력 제한)
- 50k 토큰 컨텍스트 이후: 40-45 t/s로 하락
브랜치: am17an의 MTP 포크. 빌드 및 실행은 간단했습니다 — '한 번에 풀(pull)하고 빌드'했으며 llama-server가 문제없이 실행되었습니다. 이 설정은 도구 호출과 하위 에이전트를 잘 처리했으며, VRAM 제한(32GB)에도 불구하고 '매우 통찰력 있는 코드 리뷰와 리팩토링'을 제공했습니다.
이는 V100과 같은 구형 데이터센터 하드웨어에서 LLM을 실행하는 개발자에게 특히 관련이 있습니다. MTP는 이 모델의 처리량을 효과적으로 두 배로 늘려 코딩 어시스턴트 워크로드에 실질적인 이점을 보여줍니다.
📖 전체 소스 읽기: r/LocalLLaMA
👀 See Also

SmallClaw V1.0.3은 웹훅, n8n 자동화 및 MCP 서버 지원을 추가합니다.
SmallClaw V1.0.3은 외부 서비스 트리거를 위한 웹훅 엔드포인트, n8n을 활용한 로컬 자동화 워크플로우, 도구 통합을 위한 MCP 서버 연결을 도입합니다. 이 업데이트는 작은 로컬 LLM으로 실행하는 도구의 초점을 유지합니다.

ddash: URL 기반 저장 및 Claude 코드 통합 기능을 갖춘 Mermaid 다이어그램 도구
ddash는 전체 다이어그램이 URL 해시에 압축되어 저장되는 무료 Mermaid 다이어그램 도구로, 백엔드, 계정 또는 저장소가 필요하지 않습니다. Claude Code 스킬을 포함하고 있어 /diagram the auth flow와 같은 명령어로 대화 중 직접 다이어그램을 생성하고 열 수 있습니다.

Kafka, Redis, RabbitMQ를 NATS로 대체하기: 개발자 경험
한 개발자가 아키텍처에서 Kafka, Redis, RabbitMQ를 NATS로 대체한 경험을 공유하며, 여러 메시징 시스템을 하나의 도구로 통합한 구체적인 구현 세부사항과 교훈을 제시했습니다.

클로드 코드 UI 출력이 변질되는 이유와 구조화된 명세로 해결하는 방법
한 개발자가 Claude Code의 UI 출력이 일관되지 않은 것은 프롬프트 문제가 아니라 형식 문제라고 설명합니다. 정확한 16진수 색상 코드, 글꼴 두께, 간격, 화면 상태 및 전환을 제공하면 변화가 사라집니다. 또한 화면 녹화를 구조화된 명세서로 변환하는 MCP 서버를 오픈소스로 공개했습니다.