32GB VRAM에 최적화된 로컬 번역 모델 추천 TOP 2

32GB VRAM GPU 설정(특히 5090을 언급)을 가진 개발자가 실시간 자막 및 단어/구문 번역에 최적화된 로컬 번역 모델에 대한 실용적인 결과를 공유했습니다. 주요 언어 쌍은 스웨덴어-영어와 한국어-영어입니다.

성능 노트

이 모델들로 다음과 같은 결과를 얻었습니다:

버퍼링이 거의 없거나 전혀 없는 자막 번역
0-2초 내 단어 조회 번역

너무 느렸던 모델들

Qwen3.5 27b Q6
HyperCLOVAX SEED Think 32B Q6 (한국어용)
Qwen3 32b Q6 (다른 Qwen3-3.5 변형들 포함)
Viking 33b I1 Q4_K_S

기타 관찰 사항

개발자는 TranslateGemma 모델들을 언급하며, "Google에 따르면 번역에서 Gemma3 27b보다 상당히 우수하다"고 보고했지만, 이 모델들이 시스템-사용자 형식이 아닌 사용자-사용자 프롬프트를 사용한다고 지적했습니다. 이 형식 차이 때문에 직접 시도해보지는 않았습니다.

특히 스웨덴어 번역의 경우, GPT SW3 20b는 "작동할 때는 좋지만, 드물게 작동합니다(시스템 프롬프트를 수락하지 않음)."라고 언급되었습니다.

개발자는 또한 로컬 번역이 나쁘기 때문이 아니라 "여전히 일부 실수를 발견하고 있어서" Gemini 2.5 Flash와 Gemini 2.5 Flash-lite 체험판으로 전환했다고 언급했습니다. 저렴한 번역을 위해 Deepseek, OpenAI, Gemini, z.AI, Claude 중에서 고민 중이며, ChatGPT Thinking을 품질 기준으로 삼고 있습니다.

NVIDIA NIM, Routeway, Kilo, OpenCode, Puter.js를 통한 무료 API 키 옵션들도 언급했지만, 시도해보지는 않았습니다. z.ai에서 직접 GLM-4.7-Flash API를 테스트해본 결과 "꽤 좋았고, Gemma 3 27b 수준이거나 더 나은 정도"였지만, 자막 번역 위에 단어 조회를 할 때 속도 제한에 도달했습니다.

📖 Read the full source: r/LocalLLaMA