Tradução Local: Melhores Modelos para GPU 32GB em 2025

Um desenvolvedor com uma configuração de GPU de 32GB de VRAM (especificamente mencionando uma 5090) compartilhou descobertas práticas sobre modelos de tradução local otimizados para legendas em tempo real e tradução de palavras/frases. Seus principais pares de idiomas são sueco-inglês e coreano-inglês.

Modelos Recomendados

Com base em testes de qualidade e velocidade:

Para idiomas em geral: Unsloth Gemma3 27b Instruct UD, Q6_K_XL
Para idiomas europeus + 11 incluídos (coreano entre outros): Bartowski Utter Project EuroLLM 22B Instruct 2512, Q8_0

O desenvolvedor observou que esses superaram os modelos anteriores preferidos: Magistral Small 2509 Q8, Gemma 3 27b Q4, Mistral Small 3.2 Q6_K e GPT_OSS 20b (nessa ordem).

Notas de Desempenho

Com esses modelos, eles alcançaram:

Traduções de legendas com pouco ou nenhum buffering
Traduções de consulta de palavras em 0-2 segundos

Modelos Que Foram Muito Lentos

Qwen3.5 27b Q6
HyperCLOVAX SEED Think 32B Q6 (para coreano)
Qwen3 32b Q6 (entre outras variantes Qwen3-3.5)
Viking 33b I1 Q4_K_S

Outras Observações

O desenvolvedor mencionou os modelos TranslateGemma, que eles relatam serem "significativamente melhores de acordo com o Google do que o Gemma3 27b na tradução", mas observou que esses usam prompts de usuário para usuário em vez do formato sistema-usuário. Eles não os testaram pessoalmente devido a essa diferença de formato.

Para tradução sueca especificamente, o GPT SW3 20b foi observado como "bom quando funciona, o que é raramente (recusa-se a aceitar meu prompt do sistema)".

O desenvolvedor também mencionou mudar para o teste do Gemini 2.5 Flash e Gemini 2.5 Flash-lite não porque as traduções locais fossem ruins, mas porque eles "ainda notavam alguns erros". Eles estão debatendo entre Deepseek, OpenAI, Gemini, z.AI e Claude para traduções baratas, com o ChatGPT Thinking como seu padrão de qualidade.

Eles observaram algumas opções gratuitas de chave de API via: NVIDIA NIM, Routeway, Kilo, OpenCode e Puter.js, embora não as tenham testado. Eles testaram a API GLM-4.7-Flash diretamente do z.ai, achando-a "muito boa, em torno do nível do Gemma 3 27b ou até melhor", mas atingiram limites de taxa ao fazer consultas de palavras além de traduções de legendas.

📖 Read the full source: r/LocalLLaMA