Recomendaciones de Modelos de Traducción Local para GPUs con 32 GB de VRAM

Un desarrollador con una configuración de GPU de 32 GB de VRAM (mencionando específicamente una 5090) compartió hallazgos prácticos sobre modelos de traducción local optimizados para subtítulos en tiempo real y traducción de palabras/frases. Sus pares de idiomas principales son sueco-inglés y coreano-inglés.
Modelos Recomendados
Según pruebas de calidad y velocidad:
- Para idiomas en general: Unsloth Gemma3 27b Instruct UD, Q6_K_XL
- Para idiomas europeos + 11 incluidos (coreano entre otros): Bartowski Utter Project EuroLLM 22B Instruct 2512, Q8_0
El desarrollador señaló que estos superaron a los modelos anteriores de referencia: Magistral Small 2509 Q8, Gemma 3 27b Q4, Mistral Small 3.2 Q6_K y GPT_OSS 20b (en ese orden).
Notas de Rendimiento
Con estos modelos, lograron:
- Traducciones de subtítulos con poca o ninguna pausa
- Traducciones de búsqueda de palabras en 0-2 segundos
Modelos Que Eran Demasiado Lentos
- Qwen3.5 27b Q6
- HyperCLOVAX SEED Think 32B Q6 (para coreano)
- Qwen3 32b Q6 (entre otras variantes Qwen3-3.5)
- Viking 33b I1 Q4_K_S
Otras Observaciones
El desarrollador mencionó los modelos TranslateGemma, que según informan son "significativamente mejores según Google que Gemma3 27b en traducción", pero señaló que estos usan prompts de usuario-usuario en lugar del formato sistema-usuario. No los han probado personalmente debido a esta diferencia de formato.
Para la traducción al sueco específicamente, GPT SW3 20b fue señalado como "bueno cuando funciona, lo cual es raro (se niega a aceptar mi prompt del sistema)".
El desarrollador también mencionó cambiar a prueba Gemini 2.5 Flash y Gemini 2.5 Flash-lite no porque las traducciones locales fueran malas, sino porque "todavía notaban algunos errores". Están debatiendo entre Deepseek, OpenAI, Gemini, z.AI y Claude para traducciones económicas, con ChatGPT Thinking como su estándar de calidad.
Señalaron algunas opciones de claves API gratuitas a través de: NVIDIA NIM, Routeway, Kilo, OpenCode y Puter.js, aunque no las han probado. Sí probaron GLM-4.7-Flash API directamente desde z.ai, encontrándola "bastante buena, alrededor del nivel de Gemma 3 27b o incluso mejor", pero alcanzaron límites de tasa al hacer búsquedas de palabras además de traducciones de subtítulos.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Hoja de referencia de estructura de carpetas de Claude Code del usuario de Reddit
Un usuario de Reddit creó una hoja de referencia para la estructura de carpetas de Claude Code después de encontrar problemas comunes, cubriendo el diseño del directorio .claude/, eventos de hook, settings.json, configuración MCP, estructura de habilidades y umbrales de gestión de contexto.

Optimización de Qwen3.5-9B en RTX 3070 Mobile con ik_llama.cpp: Ajustes de Configuración y Puntos de Referencia
Un desarrollador comparte hallazgos de optimización para ejecutar Qwen3.5-9B Q4_K_M en una GPU RTX 3070 Mobile de 8GB usando ik_llama.cpp, logrando una velocidad de generación de ~50 tokens/segundo y mejoras significativas en la evaluación de prompts mediante ajustes de configuración.

Problemas y Soluciones de Configuración de Acceso Condicional de Claude Code O365 MCP
Un desarrollador comparte soluciones específicas para dos problemas encontrados al configurar el conector O365 MCP de Claude Code bajo políticas de acceso condicional: encontrar los ID de aplicación correctos para las reglas de políticas y resolver errores de autenticación relacionados con ubicaciones de servidores.

Enruta Claude Code a través de Ollama y reduce tu factura ~90%
Combina Claude Desktop con Claude Code respaldado por Ollama: el trabajo estratégico se queda en Anthropic, las tareas pesadas se ejecutan en modelos gratuitos de código abierto como Gemma, Qwen, DeepSeek. Incluye un prompt de copiar y pegar que automatiza ~98% de la configuración.