32GB VRAM向けローカル翻訳モデル: Gemma3 27b vs EuroLLM 22B

32GB VRAM GPUセットアップ（具体的には5090を言及）を持つ開発者が、リアルタイム字幕および単語・フレーズ翻訳に最適化されたローカル翻訳モデルに関する実用的な知見を共有しました。主な言語ペアはスウェーデン語-英語と韓国語-英語です。

推奨モデル

品質と速度のテストに基づく：

全般的な言語向け： Unsloth Gemma3 27b Instruct UD, Q6_K_XL
ヨーロッパ言語＋11言語（韓国語含む）向け： Bartowski Utter Project EuroLLM 22B Instruct 2512, Q8_0

開発者は、これらが以前の定番モデル（Magistral Small 2509 Q8、Gemma 3 27b Q4、Mistral Small 3.2 Q6_K、GPT_OSS 20bの順）よりも優れていると指摘しました。

パフォーマンスに関する注記

これらのモデルを使用して達成したこと：

バッファリングがほとんどない字幕翻訳
0〜2秒以内の単語検索翻訳

速度が遅すぎたモデル

Qwen3.5 27b Q6
HyperCLOVAX SEED Think 32B Q6（韓国語向け）
Qwen3 32b Q6（他のQwen3-3.5バリアント含む）
Viking 33b I1 Q4_K_S

その他の観察事項

開発者はTranslateGemmaモデルについて言及し、「GoogleによるとGemma3 27bよりも翻訳が大幅に優れている」と報告していますが、これらはシステム-ユーザー形式ではなくユーザー-ユーザープロンプトを使用している点を指摘しました。この形式の違いから、直接試していません。

スウェーデン語翻訳に関しては、GPT SW3 20bが「動作するときは良いが、稀にしか動作しない（システムプロンプトを受け付けない）」と記されています。

開発者はまた、ローカル翻訳が悪いからではなく「まだいくつかの誤りに気づく」ため、Gemini 2.5 FlashおよびGemini 2.5 Flash-liteの試用に切り替えたと述べています。安価な翻訳にはDeepseek、OpenAI、Gemini、z.AI、Claudeの間で検討しており、ChatGPT Thinkingを品質基準としています。

NVIDIA NIM、Routeway、Kilo、OpenCode、Puter.js経由の無料APIキーオプションがあると指摘しましたが、試していません。z.aiから直接GLM-4.7-Flash APIをテストし、「かなり良く、Gemma 3 27bレベルかそれ以上」と感じましたが、字幕翻訳に加えて単語検索を行うとレート制限に達しました。

📖 Read the full source: r/LocalLLaMA