RTX 5060 Ti 16GB 로컬 LLM 벤치마크: 추천 코딩 모델과 성능

RTX 5060 Ti 16GB 로컬 LLM 성능 결과

32GB DDR4 RAM을 탑재한 RTX 5060 Ti 16GB에서 llama-server b8373 (46dba9fce)을 사용하여 테스트한 결과, 로컬 LLM 코딩 워크플로우에 대한 실용적인 성능 특성을 확인할 수 있었습니다. 설정은 llama.cpp를 사용했으며, 특정 실행 옵션으로는 fa=on, ngl=auto, threads=8을 포함한 고속 경로와 KV 설정 -ctk q8_0 -ctv q8_0이 적용되었습니다.

모델 성능 결과

벤치마크는 여러 양자화된 모델을 비교하여 다음과 같은 주요 결과를 도출했습니다:

최고의 기본 코딩 모델: Unsloth Qwen3-Coder-30B UD-Q3_K_XL
최고의 고컨텍스트 코딩 옵션: 동일한 Unsloth 30B 모델을 96k 컨텍스트에서 사용
최고의 고속 35B 코딩 옵션: Unsloth Qwen3.5-35B UD-Q2_K_XL

성능 지표

로컬 테스트에서 측정된 토큰 생성 속도:

Jackrong Qwen 3.5 4B Q5_K_M: 88 tok/s
LuffyTheFox Qwen 3.5 9B Q4_K_M: 64 tok/s
Jackrong Qwen 3.5 27B Q3_K_S: ~20 tok/s
Unsloth Qwen 3.0 30B UD-Q3_K_XL: 76.3 tok/s
Unsloth Qwen 3.5 35B UD-Q2_K_XL: 80.1 tok/s

크로스 플랫폼 비교

20개의 질문, 32k 컨텍스트, max_tokens=800으로 일치시킨 테스트 결과:

Unsloth Qwen3-Coder-30B UD-Q3_K_XL: Windows: 79.5 tok/s, 품질 7.94 | Ubuntu: 76.3 tok/s, 품질 8.14
Unsloth Qwen3.5-35B UD-Q2_K_XL: Windows: 72.3 tok/s, 품질 7.40 | Ubuntu: 80.1 tok/s, 품질 7.39
Jackrong Qwen3.5-27B Claude-Opus Distilled Q3_K_S: Windows: 19.9 tok/s, 품질 8.85 | Ubuntu: ~20.0 tok/s, 품질 8.21

설정 참고사항

30B 코더 경로는 jinja, reasoning-budget 0, reasoning-format none을 사용했습니다. 35B UD 경로는 c=262144, n-cpu-moe=8을 사용했습니다. 35B Q4_K_M 안정 튜닝의 경우 설정은 -ngl 26 -c 131072 --fit on --fit-ctx 131072 --fit-target 512M이었습니다.

특히, 35B Q4_K_M 모델은 이 카드에서 안정적으로 실행되기 위해 특정 튜닝이 필요했지만, 실제 사용에서는 이전 UD-Q2_K_XL 경로보다 성능이 뛰어나지 않았습니다. 저자는 더 작은 모델(9B 경로)과 더 무거운 실험(35B Q4_K_M)이 기대와 달리 실제 사용에서 가장 강력한 선택이 아니라는 점을 발견했습니다.