32GB VRAM GPU向けのローカル翻訳モデル推奨事項

32GB VRAM GPUセットアップ(具体的には5090を言及)を持つ開発者が、リアルタイム字幕および単語・フレーズ翻訳に最適化されたローカル翻訳モデルに関する実用的な知見を共有しました。主な言語ペアはスウェーデン語-英語と韓国語-英語です。
推奨モデル
品質と速度のテストに基づく:
- 全般的な言語向け: Unsloth Gemma3 27b Instruct UD, Q6_K_XL
- ヨーロッパ言語+11言語(韓国語含む)向け: Bartowski Utter Project EuroLLM 22B Instruct 2512, Q8_0
開発者は、これらが以前の定番モデル(Magistral Small 2509 Q8、Gemma 3 27b Q4、Mistral Small 3.2 Q6_K、GPT_OSS 20bの順)よりも優れていると指摘しました。
パフォーマンスに関する注記
これらのモデルを使用して達成したこと:
- バッファリングがほとんどない字幕翻訳
- 0〜2秒以内の単語検索翻訳
速度が遅すぎたモデル
- Qwen3.5 27b Q6
- HyperCLOVAX SEED Think 32B Q6(韓国語向け)
- Qwen3 32b Q6(他のQwen3-3.5バリアント含む)
- Viking 33b I1 Q4_K_S
その他の観察事項
開発者はTranslateGemmaモデルについて言及し、「GoogleによるとGemma3 27bよりも翻訳が大幅に優れている」と報告していますが、これらはシステム-ユーザー形式ではなくユーザー-ユーザープロンプトを使用している点を指摘しました。この形式の違いから、直接試していません。
スウェーデン語翻訳に関しては、GPT SW3 20bが「動作するときは良いが、稀にしか動作しない(システムプロンプトを受け付けない)」と記されています。
開発者はまた、ローカル翻訳が悪いからではなく「まだいくつかの誤りに気づく」ため、Gemini 2.5 FlashおよびGemini 2.5 Flash-liteの試用に切り替えたと述べています。安価な翻訳にはDeepseek、OpenAI、Gemini、z.AI、Claudeの間で検討しており、ChatGPT Thinkingを品質基準としています。
NVIDIA NIM、Routeway、Kilo、OpenCode、Puter.js経由の無料APIキーオプションがあると指摘しましたが、試していません。z.aiから直接GLM-4.7-Flash APIをテストし、「かなり良く、Gemma 3 27bレベルかそれ以上」と感じましたが、字幕翻訳に加えて単語検索を行うとレート制限に達しました。
📖 Read the full source: r/LocalLLaMA
👀 See Also

OpenClawの起動費用:ハードウェア、API、月次予算
なし

プロキシレイヤーでClaude Coworkを安全に保護する方法:実践ガイド
Claude Coworkの動作を監視・保護するためのプロキシレイヤー設定のチュートリアル。General Analysisチームが公開。

72ステップのClaudeセットアップチェックリスト:デフォルトからパワーユーザーへ
Claudeをデフォルト設定からパワーユーザー向けに構成する72ステップのチェックリストを解説した詳細なMedium記事。HNで10ポイント、1コメントを獲得。

VPSと専用サーバー:OpenClawをどこで実行するか
新規ユーザーが最初に尋ねる質問の一つ:OpenClawはどこで実行すべきか?決断を助ける比較をご紹介します。