Recomendações de Modelos de Tradução Local para GPUs com 32 GB de VRAM

Um desenvolvedor com uma configuração de GPU de 32GB de VRAM (especificamente mencionando uma 5090) compartilhou descobertas práticas sobre modelos de tradução local otimizados para legendas em tempo real e tradução de palavras/frases. Seus principais pares de idiomas são sueco-inglês e coreano-inglês.
Modelos Recomendados
Com base em testes de qualidade e velocidade:
- Para idiomas em geral: Unsloth Gemma3 27b Instruct UD, Q6_K_XL
- Para idiomas europeus + 11 incluídos (coreano entre outros): Bartowski Utter Project EuroLLM 22B Instruct 2512, Q8_0
O desenvolvedor observou que esses superaram os modelos anteriores preferidos: Magistral Small 2509 Q8, Gemma 3 27b Q4, Mistral Small 3.2 Q6_K e GPT_OSS 20b (nessa ordem).
Notas de Desempenho
Com esses modelos, eles alcançaram:
- Traduções de legendas com pouco ou nenhum buffering
- Traduções de consulta de palavras em 0-2 segundos
Modelos Que Foram Muito Lentos
- Qwen3.5 27b Q6
- HyperCLOVAX SEED Think 32B Q6 (para coreano)
- Qwen3 32b Q6 (entre outras variantes Qwen3-3.5)
- Viking 33b I1 Q4_K_S
Outras Observações
O desenvolvedor mencionou os modelos TranslateGemma, que eles relatam serem "significativamente melhores de acordo com o Google do que o Gemma3 27b na tradução", mas observou que esses usam prompts de usuário para usuário em vez do formato sistema-usuário. Eles não os testaram pessoalmente devido a essa diferença de formato.
Para tradução sueca especificamente, o GPT SW3 20b foi observado como "bom quando funciona, o que é raramente (recusa-se a aceitar meu prompt do sistema)".
O desenvolvedor também mencionou mudar para o teste do Gemini 2.5 Flash e Gemini 2.5 Flash-lite não porque as traduções locais fossem ruins, mas porque eles "ainda notavam alguns erros". Eles estão debatendo entre Deepseek, OpenAI, Gemini, z.AI e Claude para traduções baratas, com o ChatGPT Thinking como seu padrão de qualidade.
Eles observaram algumas opções gratuitas de chave de API via: NVIDIA NIM, Routeway, Kilo, OpenCode e Puter.js, embora não as tenham testado. Eles testaram a API GLM-4.7-Flash diretamente do z.ai, achando-a "muito boa, em torno do nível do Gemma 3 27b ou até melhor", mas atingiram limites de taxa ao fazer consultas de palavras além de traduções de legendas.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Problemas e Soluções de Configuração de Acesso Condicional do Claude Code O365 MCP
Um desenvolvedor compartilha soluções específicas para dois problemas encontrados ao configurar o conector O365 MCP do Claude Code sob políticas de acesso condicional: encontrar os IDs de aplicativos corretos para regras de política e resolver erros de autenticação relacionados a localizações de servidores.

Rodando Qwen3.6-35B-A3B com ~190k de Contexto em 8GB VRAM + 32GB RAM – Configuração e Benchmarks
Um usuário do Reddit compartilha uma configuração funcional do llama.cpp para modelos Qwen3.6-35B-A3B GGUF em uma RTX 4060 (8GB VRAM) + 32GB DDR5, alcançando 37-51 tok/s em contexto de 192k usando TurboQuant e flags específicas.

5 Principais Capacidades do OpenClaw Disponíveis Sem Instalar Habilidades
A instalação básica do OpenClaw pode lidar com operações de arquivos, comandos de shell, busca na web, tarefas agendadas e fluxos de trabalho de múltiplas etapas sem habilidades adicionais, reduzindo custos de tokens e complexidade de configuração.

Claude Code Skills vs. Custom Agents: Um Modelo Mental Baseado na Consistência de Tarefas
Um usuário do Reddit esclarece a distinção entre as habilidades do Claude Code e os agentes personalizados: as habilidades executam os mesmos passos todas as vezes, enquanto os agentes personalizados exigem raciocínio e adaptação. A postagem também aborda subagentes paralelos, delegação, hooks e blocos de construção.