Qwen3.5-35B-A3B-UD-Q6_K_XL 프로덕션 테스트: 80tps 벤치마크

r/LocalLLaMA의 한 개발자가 Qwen3.5-35B-A3B-UD-Q6_K_XL 모델의 생산 개발 시나리오에서의 상세한 테스트 결과를 공유했습니다. 사용자는 실제 클라이언트 프로젝트에서 벤치마크 테스트와 실용적인 적용을 모두 수행했습니다.

성능 벤치마크

이 모델은 1504pp2048 및 47.71 tg256의 벤치마크 점수를 달성했습니다. 토큰 생성 속도는 두 개의 GPU에 분산되었을 때 견고했으며, 단일 GPU에서 실행할 때 초당 80 토큰(tps)으로 증가했습니다.

생산 테스트 방법론

개발자는 Git Worktrees를 사용하여 알려진 사양과 기능으로 롤백하면서 다섯 가지 다른 프로젝트에서 이 모델을 테스트했습니다. 이러한 테스트의 사양은 Claude에 의해 생성되었으며, 개발자는 지난 1년 동안 Max Pro 플랜을 사용했습니다.

JavaScript, Go 및 Rust 프로젝트에서 테스트
테스트 중 버전 관리를 위해 Git Worktrees 사용
대부분의 "버그"는 5분 정도의 조정만 필요하거나 두 번째 프롬프트로 수정 가능
Sonnet 4 사용 경험과 비교

실질적 결과 및 비즈니스 영향

개발자는 Qwen3.5가 자신이 수행하는 작업에 대해 "놀라운 성과"를 보였다고 보고했으며, 특히 Go 및 Rust 프로젝트에서 강력한 성능을 보인 점을 강조했습니다. 이는 API 기반 모델에서 하이브리드 접근 방식으로 전환하는 것을 진지하게 고려하게 했습니다: 사양 생성 및 검토를 위해 API를 통한 SOTA 모델을 사용하면서, 개발 작업에는 로컬 모델을 사용하는 방식입니다.

이 테스트는 하드웨어 투자 대 구독 비용에 대한 의문을 제기했습니다. 개발자는 2025년 6월 이후 Claude Pro Max에 이미 $2,000를 지출했으며, 구독이 계속된다면 2027년까지 비용이 $6,800에 이를 수 있습니다. 이로 인해 비즈니스 투자로서 RTX 6000 Pro 구매를 고려하게 되었습니다.

개발자는 이전에 탭 완성을 위해 Qwen Coder를 사용해 왔지만, Qwen3.5가 생산 사용을 위한 로컬 모델의 능력을 새로운 수준으로 끌어올렸다고 느꼈습니다.

📖 전체 출처 읽기: r/LocalLLaMA