Top Lokale Übersetzungsmodelle für 32 GB VRAM: Gemma3 & EuroLLM

Ein Entwickler mit einem 32GB-VRAM-GPU-Setup (erwähnte speziell eine 5090) teilte praktische Erkenntnisse über lokale Übersetzungsmodelle, die für Echtzeit-Untertitel- und Wort-/Phrasenübersetzungen optimiert sind. Seine Hauptsprachpaare sind Schwedisch-Englisch und Koreanisch-Englisch.

Empfohlene Modelle

Basierend auf Tests zu Qualität und Geschwindigkeit:

Für allgemeine Sprachen: Unsloth Gemma3 27b Instruct UD, Q6_K_XL
Für europäische Sprachen + 11 enthaltene (darunter Koreanisch): Bartowski Utter Project EuroLLM 22B Instruct 2512, Q8_0

Der Entwickler stellte fest, dass diese frühere Standardmodelle übertrafen: Magistral Small 2509 Q8, Gemma 3 27b Q4, Mistral Small 3.2 Q6_K und GPT_OSS 20b (in dieser Reihenfolge).

Leistungshinweise

Mit diesen Modellen erreichte er:

Untertitelübersetzungen mit wenig bis keiner Pufferung
Wortnachschlagübersetzungen innerhalb von 0-2 Sekunden

Modelle, die zu langsam waren

Qwen3.5 27b Q6
HyperCLOVAX SEED Think 32B Q6 (für Koreanisch)
Qwen3 32b Q6 (unter anderen Qwen3-3.5-Varianten)
Viking 33b I1 Q4_K_S

Weitere Beobachtungen

Der Entwickler erwähnte TranslateGemma-Modelle, von denen er berichtet, sie seien "laut Google deutlich besser als Gemma3 27b bei der Übersetzung", merkte aber an, dass diese Benutzer-Benutzer-Prompts anstelle des System-Benutzer-Formats verwenden. Er hat sie aufgrund dieses Formatunterschieds nicht selbst ausprobiert.

Für schwedische Übersetzungen speziell wurde GPT SW3 20b als "gut, wenn es funktioniert, was selten ist (lehnt meinen System-Prompt ab)" beschrieben.

Der Entwickler erwähnte auch, dass er zu Testversionen von Gemini 2.5 Flash und Gemini 2.5 Flash-lite gewechselt ist, nicht weil lokale Übersetzungen schlecht waren, sondern weil er "immer noch einige Fehler bemerkte". Er überlegt zwischen Deepseek, OpenAI, Gemini, z.AI und Claude für günstige Übersetzungen, wobei ChatGPT Thinking seine Qualitätsmesslatte ist.

Er erwähnte einige kostenlose API-Schlüsseloptionen über: NVIDIA NIM, Routeway, Kilo, OpenCode und Puter.js, hat sie aber nicht ausprobiert. Er testete die GLM-4.7-Flash-API direkt von z.ai und fand sie "ziemlich gut, auf Gemma 3 27b-Niveau oder sogar besser", stieß aber bei Wortnachschlägen zusätzlich zu Untertitelübersetzungen auf Ratenbegrenzungen.

📖 Read the full source: r/LocalLLaMA

Lokale Übersetzungsmodell-Empfehlungen für GPUs mit 32 GB VRAM

Empfohlene Modelle

Leistungshinweise

Modelle, die zu langsam waren

Weitere Beobachtungen

👀 Siehe auch

Praktische OpenClaw-Ratschläge: Klein anfangen, häufige Fehler vermeiden

Fünf häufige OpenClaw-Konfigurationsprobleme, die die API-Kosten in die Höhe treiben

12 Power-User-Tipps für OpenClaw zur Optimierung von KI-Agenten-Workflows

Anleitung: Bereitstellung von OpenClaw mit llama.cpp auf dem GEEKOM IT15 Mini-PC