32 Go VRAM : meilleurs modèles de traduction locale

Un développeur avec une configuration GPU VRAM de 32 Go (mentionnant spécifiquement un 5090) a partagé des résultats pratiques sur les modèles de traduction locaux optimisés pour le sous-titrage en temps réel et la traduction de mots/phrases. Ses paires de langues principales sont le suédois-anglais et le coréen-anglais.

Modèles Recommandés

Sur la base des tests de qualité et de vitesse :

Pour les langues en général : Unsloth Gemma3 27b Instruct UD, Q6_K_XL
Pour les langues européennes + 11 incluses (dont le coréen) : Bartowski Utter Project EuroLLM 22B Instruct 2512, Q8_0

Le développeur a noté que ces modèles surpassaient les précédents modèles de référence : Magistral Small 2509 Q8, Gemma 3 27b Q4, Mistral Small 3.2 Q6_K, et GPT_OSS 20b (dans cet ordre).

Notes sur les Performances

Avec ces modèles, il a obtenu :

Des traductions de sous-titres avec peu ou pas de mise en mémoire tampon
Des traductions de recherche de mots en 0 à 2 secondes

Modèles Trop Lents

Qwen3.5 27b Q6
HyperCLOVAX SEED Think 32B Q6 (pour le coréen)
Qwen3 32b Q6 (parmi d'autres variantes Qwen3-3.5)
Viking 33b I1 Q4_K_S

Autres Observations

Le développeur a mentionné les modèles TranslateGemma, qu'il décrit comme "bien meilleurs selon Google que Gemma3 27b pour la traduction", mais a noté qu'ils utilisent des invites utilisateur-utilisateur plutôt que le format système-utilisateur. Il ne les a pas essayés personnellement en raison de cette différence de format.

Pour la traduction suédoise spécifiquement, GPT SW3 20b a été noté comme "bon quand il fonctionne, ce qui est rare (il refuse d'accepter mon invite système)".

Le développeur a également mentionné être passé aux versions d'essai Gemini 2.5 Flash et Gemini 2.5 Flash-lite non pas parce que les traductions locales étaient mauvaises, mais parce qu'il "remarquait encore quelques erreurs". Il hésite entre Deepseek, OpenAI, Gemini, z.AI et Claude pour des traductions peu coûteuses, avec ChatGPT Thinking comme référence de qualité.

Il a noté quelques options de clés API gratuites via : NVIDIA NIM, Routeway, Kilo, OpenCode et Puter.js, bien qu'il ne les ait pas essayées. Il a testé l'API GLM-4.7-Flash directement depuis z.ai, la trouvant "assez bonne, au niveau de Gemma 3 27b voire meilleure", mais a atteint les limites de taux lors de recherches de mots en plus des traductions de sous-titres.

📖 Read the full source: r/LocalLLaMA

Recommandations de modèles de traduction locale pour les cartes graphiques avec 32 Go de VRAM

Modèles Recommandés

Notes sur les Performances

Modèles Trop Lents

Autres Observations

👀 See Also

Traiter les Sous-agents OpenClaw comme des Fonctions sans État plutôt que comme des Membres d'Équipe Persistants

Guide pratique pour créer des compétences Claude : Structure, déclencheurs et scripts

Comment réclamer et étendre les crédits API Anthropic avec le routeur de Manifest

Optimisation d'AutoResearch sur RTX 5090 : Ce qui a échoué et ce qui a fonctionné