32 GB VRAM: 2 Modelos de Traducción Local Probados

Un desarrollador con una configuración de GPU de 32 GB de VRAM (mencionando específicamente una 5090) compartió hallazgos prácticos sobre modelos de traducción local optimizados para subtítulos en tiempo real y traducción de palabras/frases. Sus pares de idiomas principales son sueco-inglés y coreano-inglés.

Modelos Recomendados

Según pruebas de calidad y velocidad:

Para idiomas en general: Unsloth Gemma3 27b Instruct UD, Q6_K_XL
Para idiomas europeos + 11 incluidos (coreano entre otros): Bartowski Utter Project EuroLLM 22B Instruct 2512, Q8_0

El desarrollador señaló que estos superaron a los modelos anteriores de referencia: Magistral Small 2509 Q8, Gemma 3 27b Q4, Mistral Small 3.2 Q6_K y GPT_OSS 20b (en ese orden).

Notas de Rendimiento

Con estos modelos, lograron:

Traducciones de subtítulos con poca o ninguna pausa
Traducciones de búsqueda de palabras en 0-2 segundos

Modelos Que Eran Demasiado Lentos

Qwen3.5 27b Q6
HyperCLOVAX SEED Think 32B Q6 (para coreano)
Qwen3 32b Q6 (entre otras variantes Qwen3-3.5)
Viking 33b I1 Q4_K_S

Otras Observaciones

El desarrollador mencionó los modelos TranslateGemma, que según informan son "significativamente mejores según Google que Gemma3 27b en traducción", pero señaló que estos usan prompts de usuario-usuario en lugar del formato sistema-usuario. No los han probado personalmente debido a esta diferencia de formato.

Para la traducción al sueco específicamente, GPT SW3 20b fue señalado como "bueno cuando funciona, lo cual es raro (se niega a aceptar mi prompt del sistema)".

El desarrollador también mencionó cambiar a prueba Gemini 2.5 Flash y Gemini 2.5 Flash-lite no porque las traducciones locales fueran malas, sino porque "todavía notaban algunos errores". Están debatiendo entre Deepseek, OpenAI, Gemini, z.AI y Claude para traducciones económicas, con ChatGPT Thinking como su estándar de calidad.

Señalaron algunas opciones de claves API gratuitas a través de: NVIDIA NIM, Routeway, Kilo, OpenCode y Puter.js, aunque no las han probado. Sí probaron GLM-4.7-Flash API directamente desde z.ai, encontrándola "bastante buena, alrededor del nivel de Gemma 3 27b o incluso mejor", pero alcanzaron límites de tasa al hacer búsquedas de palabras además de traducciones de subtítulos.

📖 Read the full source: r/LocalLLaMA

Recomendaciones de Modelos de Traducción Local para GPUs con 32 GB de VRAM

Modelos Recomendados

Notas de Rendimiento

Modelos Que Eran Demasiado Lentos

Otras Observaciones

👀 Ver también

Comenzando con OpenCode para la Configuración de un Agente de IA Local para Programación

Resultados de Pruebas del Plugin de Memoria OpenClaw y Pila Recomendada

Pruebas de Contrato para Desarrollo Impulsado por IA con OpenClaw

Conceder acceso a Claude M365 a través de Power Automate y un servidor FastMCP