RTX 5060 Ti 16GB 로컬 LLM 벤치마크: 코딩용 30B 모델이 여전히 선두를 달리고 있습니다

RTX 5060 Ti 16GB 로컬 LLM 성능 결과
32GB DDR4 RAM을 탑재한 RTX 5060 Ti 16GB에서 llama-server b8373 (46dba9fce)을 사용하여 테스트한 결과, 로컬 LLM 코딩 워크플로우에 대한 실용적인 성능 특성을 확인할 수 있었습니다. 설정은 llama.cpp를 사용했으며, 특정 실행 옵션으로는 fa=on, ngl=auto, threads=8을 포함한 고속 경로와 KV 설정 -ctk q8_0 -ctv q8_0이 적용되었습니다.
모델 성능 결과
벤치마크는 여러 양자화된 모델을 비교하여 다음과 같은 주요 결과를 도출했습니다:
- 최고의 기본 코딩 모델: Unsloth Qwen3-Coder-30B UD-Q3_K_XL
- 최고의 고컨텍스트 코딩 옵션: 동일한 Unsloth 30B 모델을 96k 컨텍스트에서 사용
- 최고의 고속 35B 코딩 옵션: Unsloth Qwen3.5-35B UD-Q2_K_XL
성능 지표
로컬 테스트에서 측정된 토큰 생성 속도:
- Jackrong Qwen 3.5 4B Q5_K_M: 88 tok/s
- LuffyTheFox Qwen 3.5 9B Q4_K_M: 64 tok/s
- Jackrong Qwen 3.5 27B Q3_K_S: ~20 tok/s
- Unsloth Qwen 3.0 30B UD-Q3_K_XL: 76.3 tok/s
- Unsloth Qwen 3.5 35B UD-Q2_K_XL: 80.1 tok/s
크로스 플랫폼 비교
20개의 질문, 32k 컨텍스트, max_tokens=800으로 일치시킨 테스트 결과:
- Unsloth Qwen3-Coder-30B UD-Q3_K_XL: Windows: 79.5 tok/s, 품질 7.94 | Ubuntu: 76.3 tok/s, 품질 8.14
- Unsloth Qwen3.5-35B UD-Q2_K_XL: Windows: 72.3 tok/s, 품질 7.40 | Ubuntu: 80.1 tok/s, 품질 7.39
- Jackrong Qwen3.5-27B Claude-Opus Distilled Q3_K_S: Windows: 19.9 tok/s, 품질 8.85 | Ubuntu: ~20.0 tok/s, 품질 8.21
설정 참고사항
30B 코더 경로는 jinja, reasoning-budget 0, reasoning-format none을 사용했습니다. 35B UD 경로는 c=262144, n-cpu-moe=8을 사용했습니다. 35B Q4_K_M 안정 튜닝의 경우 설정은 -ngl 26 -c 131072 --fit on --fit-ctx 131072 --fit-target 512M이었습니다.
특히, 35B Q4_K_M 모델은 이 카드에서 안정적으로 실행되기 위해 특정 튜닝이 필요했지만, 실제 사용에서는 이전 UD-Q2_K_XL 경로보다 성능이 뛰어나지 않았습니다. 저자는 더 작은 모델(9B 경로)과 더 무거운 실험(35B Q4_K_M)이 기대와 달리 실제 사용에서 가장 강력한 선택이 아니라는 점을 발견했습니다.
Ubuntu 성능 테스트
Jackrong 27B 모델에 대한 Ubuntu에서의 추가 집중 테스트 결과 최소한의 변동을 보였습니다:
-fa on, 자동 병렬 처리: 19.95 tok/s-fa auto, 자동 병렬 처리: 19.56 tok/s-fa on,--parallel 1: 19.26 tok/s
플래시 어텐션 설정과 병렬 처리 매개변수는 이 특정 모델의 성능에 미미한 영향을 미쳤습니다.
📖 전체 소스 읽기: r/LocalLLaMA
👀 See Also

AIMEAT: AI 에이전트, 로컬 LLM 및 공유 기능을 위한 자체 호스팅 프로토콜
AIMEAT는 인간, AI 에이전트 및 로컬 LLM이 HTTP/JSON을 통해 앱, 지식 및 기능을 공유할 수 있는 자체 호스팅 프로토콜이자 서버입니다. 벤더 종속 없고, 특별한 SDK 없이 — 평범한 프롬프트와 URL 가져오기만 있으면 됩니다.

AgentHandover: 화면을 보면서 에이전트 스킬을 만드는 Mac 메뉴 바 앱
AgentHandover는 Gemma 4를 Ollama를 통해 로컬에서 실행하여 화면을 감시하고 반복적인 워크플로우를 구조화된 Skill 파일로 변환하는 오픈소스 Mac 메뉴 바 앱입니다. 특정 작업을 위한 Focus Record와 백그라운드 관찰에서 패턴을 감지하는 Passive Discovery 기능을 모두 제공합니다.

동일 코드베이스에서 세 가지 AI 도구를 비교하는 헤드투헤드 코드 리뷰 실험
동일한 코드 리뷰 작업에 대해 Codex, Claude Code, 그리고 Sextant가 적용된 Claude Code를 비교하는 비디오 실험이 진행되었습니다. Codex는 발견 사항을 검증하고 어떤 보고서가 더 가치 있는지 판단하는 역할을 맡았습니다. 이 실험은 워크플로우와 구조가 AI가 무엇을 인지하고 우선순위를 매기는지에 어떻게 영향을 미치는지에 초점을 맞추고 있습니다.

자동 라우터 대 소넷: 비용 절감 대 응답 품질
Open Router의 Auto Router 기능은 컨텍스트 복잡도에 따라 LLM을 동적으로 선택하여 상당한 비용 절감 효과(요청당 0.8센트 대비 0.00071센트)를 제공하지만, 사용자들은 Sonnet 4.6 대비 응답 품질이 저하되었다고 보고합니다.