Recomendaciones de Modelos de Traducción Local para GPUs con 32 GB de VRAM

Un desarrollador con una configuración de GPU de 32 GB de VRAM (mencionando específicamente una 5090) compartió hallazgos prácticos sobre modelos de traducción local optimizados para subtítulos en tiempo real y traducción de palabras/frases. Sus pares de idiomas principales son sueco-inglés y coreano-inglés.
Modelos Recomendados
Según pruebas de calidad y velocidad:
- Para idiomas en general: Unsloth Gemma3 27b Instruct UD, Q6_K_XL
- Para idiomas europeos + 11 incluidos (coreano entre otros): Bartowski Utter Project EuroLLM 22B Instruct 2512, Q8_0
El desarrollador señaló que estos superaron a los modelos anteriores de referencia: Magistral Small 2509 Q8, Gemma 3 27b Q4, Mistral Small 3.2 Q6_K y GPT_OSS 20b (en ese orden).
Notas de Rendimiento
Con estos modelos, lograron:
- Traducciones de subtítulos con poca o ninguna pausa
- Traducciones de búsqueda de palabras en 0-2 segundos
Modelos Que Eran Demasiado Lentos
- Qwen3.5 27b Q6
- HyperCLOVAX SEED Think 32B Q6 (para coreano)
- Qwen3 32b Q6 (entre otras variantes Qwen3-3.5)
- Viking 33b I1 Q4_K_S
Otras Observaciones
El desarrollador mencionó los modelos TranslateGemma, que según informan son "significativamente mejores según Google que Gemma3 27b en traducción", pero señaló que estos usan prompts de usuario-usuario en lugar del formato sistema-usuario. No los han probado personalmente debido a esta diferencia de formato.
Para la traducción al sueco específicamente, GPT SW3 20b fue señalado como "bueno cuando funciona, lo cual es raro (se niega a aceptar mi prompt del sistema)".
El desarrollador también mencionó cambiar a prueba Gemini 2.5 Flash y Gemini 2.5 Flash-lite no porque las traducciones locales fueran malas, sino porque "todavía notaban algunos errores". Están debatiendo entre Deepseek, OpenAI, Gemini, z.AI y Claude para traducciones económicas, con ChatGPT Thinking como su estándar de calidad.
Señalaron algunas opciones de claves API gratuitas a través de: NVIDIA NIM, Routeway, Kilo, OpenCode y Puter.js, aunque no las han probado. Sí probaron GLM-4.7-Flash API directamente desde z.ai, encontrándola "bastante buena, alrededor del nivel de Gemma 3 27b o incluso mejor", pero alcanzaron límites de tasa al hacer búsquedas de palabras además de traducciones de subtítulos.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Cómo los Prompts de Evaluación de Modelos Pequeños Pueden Engañar y Cómo Solucionarlos
Una publicación de Reddit explica que las indicaciones de evaluación para modelos pequeños a menudo producen resultados engañosos debido a que activan las vías cognitivas incorrectas en los transformadores, identificando específicamente tres modos distintos: recuperación de hechos, aplicación/seguimiento de instrucciones e inferencia emocional/empática.

Consideraciones clave: Mac Mini M4 Pro vs Mac Studio M4 Max para inferencia local de LLM
Un desarrollador compara Mac Mini M4 Pro (CPU 12C/GPU 16C, 273 GB/s) vs Mac Studio M4 Max (CPU 16C/GPU 40C, 546 GB/s), ambos con 64GB/1TB, para inferencia local con Gemma 4 y Qwen. Pregunta clave: ¿vale la pena el salto de ancho de banda por $600?

Desarrollador de iOS Comparte Mejores Prácticas de Código Claude Tras Lanzar Múltiples Aplicaciones
Un desarrollador de iOS con experiencia en ciberseguridad describe prácticas específicas para usar Claude Code de manera efectiva, incluyendo la separación de entornos, la configuración de observabilidad y la evitación de la acumulación de deuda técnica.

Metodología para la Evaluación Comparativa Consistente de LLM Locales vs en la Nube
Un desarrollador comparte una configuración de medición que utiliza solicitudes secuenciales y puntuación basada en reglas para comparar modelos locales (a través de llama.cpp, vLLM, Ollama) con APIs en la nube (GPT-5.4, Claude Sonnet 4.6, Gemini 3.1 Pro) mediante un endpoint unificado como ZenMux.