V100 32GB에서 MTP를 사용한 Qwen 3.6 27B: llama.cpp 브랜치를 통해 54 t/s

✍️ OpenClawRadar📅 게시일: May 6, 2026🔗 Source
V100 32GB에서 MTP를 사용한 Qwen 3.6 27B: llama.cpp 브랜치를 통해 54 t/s
Ad

r/LocalLLaMA의 한 사용자가 PCIe 어댑터를 사용한 V100 32GB SXM 모듈에서 Multi-Token Prediction(MTP)으로 Qwen 3.6 27B를 실행한 인상적인 결과를 보고했습니다. 이 설정은 am17an의 llama.cpp MTP 브랜치와 해당 MTP GGUF 양자화 파일을 사용합니다. 주요 사양: Q8_0 KV 캐시(200k 캐시 한도), llama-server를 통해 VS Code Copilot 백엔드로 실행.

성능 수치

  • MTP 없음: 29-30 토큰/초
  • MTP 사용: 54-55 토큰/초(150W 전력 제한)
  • 50k 토큰 컨텍스트 이후: 40-45 t/s로 하락

브랜치: am17an의 MTP 포크. 빌드 및 실행은 간단했습니다 — '한 번에 풀(pull)하고 빌드'했으며 llama-server가 문제없이 실행되었습니다. 이 설정은 도구 호출과 하위 에이전트를 잘 처리했으며, VRAM 제한(32GB)에도 불구하고 '매우 통찰력 있는 코드 리뷰와 리팩토링'을 제공했습니다.

이는 V100과 같은 구형 데이터센터 하드웨어에서 LLM을 실행하는 개발자에게 특히 관련이 있습니다. MTP는 이 모델의 처리량을 효과적으로 두 배로 늘려 코딩 어시스턴트 워크로드에 실질적인 이점을 보여줍니다.

📖 전체 소스 읽기: r/LocalLLaMA

Ad

👀 See Also

SmallClaw V1.0.3은 웹훅, n8n 자동화 및 MCP 서버 지원을 추가합니다.
Tools

SmallClaw V1.0.3은 웹훅, n8n 자동화 및 MCP 서버 지원을 추가합니다.

SmallClaw V1.0.3은 외부 서비스 트리거를 위한 웹훅 엔드포인트, n8n을 활용한 로컬 자동화 워크플로우, 도구 통합을 위한 MCP 서버 연결을 도입합니다. 이 업데이트는 작은 로컬 LLM으로 실행하는 도구의 초점을 유지합니다.

OpenClawRadar
ddash: URL 기반 저장 및 Claude 코드 통합 기능을 갖춘 Mermaid 다이어그램 도구
Tools

ddash: URL 기반 저장 및 Claude 코드 통합 기능을 갖춘 Mermaid 다이어그램 도구

ddash는 전체 다이어그램이 URL 해시에 압축되어 저장되는 무료 Mermaid 다이어그램 도구로, 백엔드, 계정 또는 저장소가 필요하지 않습니다. Claude Code 스킬을 포함하고 있어 /diagram the auth flow와 같은 명령어로 대화 중 직접 다이어그램을 생성하고 열 수 있습니다.

OpenClawRadar
Kafka, Redis, RabbitMQ를 NATS로 대체하기: 개발자 경험
Tools

Kafka, Redis, RabbitMQ를 NATS로 대체하기: 개발자 경험

한 개발자가 아키텍처에서 Kafka, Redis, RabbitMQ를 NATS로 대체한 경험을 공유하며, 여러 메시징 시스템을 하나의 도구로 통합한 구체적인 구현 세부사항과 교훈을 제시했습니다.

OpenClawRadar
클로드 코드 UI 출력이 변질되는 이유와 구조화된 명세로 해결하는 방법
Tools

클로드 코드 UI 출력이 변질되는 이유와 구조화된 명세로 해결하는 방법

한 개발자가 Claude Code의 UI 출력이 일관되지 않은 것은 프롬프트 문제가 아니라 형식 문제라고 설명합니다. 정확한 16진수 색상 코드, 글꼴 두께, 간격, 화면 상태 및 전환을 제공하면 변화가 사라집니다. 또한 화면 녹화를 구조화된 명세서로 변환하는 MCP 서버를 오픈소스로 공개했습니다.

OpenClawRadar