Локальные модели перевода для 32 ГБ VRAM

Разработчик с конфигурацией GPU на 32 ГБ видеопамяти (конкретно упоминая 5090) поделился практическими результатами по локальным моделям перевода, оптимизированным для перевода субтитров в реальном времени и слов/фраз. Его основные языковые пары — шведский-английский и корейский-английский.

Заметки о производительности

С этими моделями он достиг:

Перевод субтитров с минимальной или нулевой буферизацией
Перевод отдельных слов за 0-2 секунды

Модели, которые оказались слишком медленными

Qwen3.5 27b Q6
HyperCLOVAX SEED Think 32B Q6 (для корейского)
Qwen3 32b Q6 (среди других вариантов Qwen3-3.5)
Viking 33b I1 Q4_K_S

Другие наблюдения

Разработчик упомянул модели TranslateGemma, которые, по его словам, «значительно лучше, согласно Google, чем Gemma3 27b в переводе», но отметил, что они используют формат пользователь-пользователь, а не система-пользователь. Он не пробовал их лично из-за этого различия в формате.

Для перевода с шведского конкретно GPT SW3 20b была отмечена как «хорошая, когда работает, что бывает редко (отказывается принимать мой системный промпт)».

Разработчик также упомянул переход на пробные версии Gemini 2.5 Flash и Gemini 2.5 Flash-lite не потому, что локальный перевод был плох, а потому что он «всё ещё замечал некоторые ошибки». Он выбирает между Deepseek, OpenAI, Gemini, z.AI и Claude для дешёвого перевода, используя ChatGPT Thinking как эталон качества.

Он отметил некоторые бесплатные варианты API-ключей через: NVIDIA NIM, Routeway, Kilo, OpenCode и Puter.js, хотя сам их не пробовал. Он тестировал GLM-4.7-Flash API напрямую от z.ai, найдя его «довольно хорошим, примерно на уровне Gemma 3 27b или даже лучше», но столкнулся с ограничениями по частоте запросов при поиске слов поверх перевода субтитров.

📖 Read the full source: r/LocalLLaMA

Рекомендации по локальным моделям перевода для видеокарт с 32 ГБ VRAM

Рекомендуемые модели

Заметки о производительности

Модели, которые оказались слишком медленными

Другие наблюдения

👀 Смотрите также

Карты потока: обучение интегралу диффузионной модели для ускоренной выборки

Интеграция OpenClaw с WhatsApp Cloud API

Исправление для под-агентов, которые не отображались в OpenClaw v2026.3.13

Четыре распространённые ошибки настройки, из-за которых люди бросают OpenClaw