TranslateGemma-12b: Человеческая проверка выявляет 71% ошибок, пропущенных автоматическими метриками

✍️ OpenClawRadar📅 Опубликовано: 12 мая 2026 г.🔗 Source
TranslateGemma-12b: Человеческая проверка выявляет 71% ошибок, пропущенных автоматическими метриками
Ad

Последующий аудит субтитров TranslateGemma-12b показывает, что автоматические метрики значительно недооценивают реальные ошибки. Первоначальный бенчмарк показал, что модель превосходит ведущие универсальные модели (Claude Sonnet, GPT-5.4, DeepSeek, Gemini Flash Lite) на 6 языках. Для проверки команда добавила человеческую оценку.

Настройка

  • 21 сегмент английских субтитров из одного обучающего видео
  • TranslateGemma-12b перевела на 4 языка: ES, JA, TH, ZH-CN (корейский и традиционный китайский были исключены)
  • Всего 84 перевода, заранее отобранных как получивших высокие оценки по автоматическим метрикам
  • Каждый перевод отправлен на человеческую проверку MQM
Ad

Результаты

По порогу срабатывания системы (MX ≥ 5 OR CK < 0.70):

  • Автоматически отмечено: 1/84 (1,2%)
  • Отмечено человеком (любые): 60/84 (71%)
  • Отмечено человеком (критические): 13/84 (15%)

По языкам:

  • ES: 0/21 авто, 11/21 отмечено человеком, 2/21 критических — в основном проблемы с тоном (переключение формального/неформального), самый лёгкий из четырёх
  • JA: 0/21 авто, 17/21 отмечено человеком, 3/21 критических — паттерн «бегло, но неверный смысл»; 10 из 15 всех искажений в наборе данных. Высокий COMETKiwi (среднее 0.86) маскировал ошибки. Тот же сбой наблюдался у Claude Sonnet 4.6 на JA.
  • TH: 0/21 авто, 17/21 отмечено человеком, 5/21 критических — избыточность: 5 ошибок точности/добавления (вставка отсутствующего в оригинале контента), плюс пунктуационные ошибки из-за английских точек.
  • ZH-CN: 1/21 авто (ошибка стиля), 15/21 отмечено человеком, 3/21 критических — включая пропуск слова «store», меняющий смысл, и непоследовательный перевод «ticket» в разных сегментах.

Из 25 ошибок класса «точность» (искажение, пропуск, добавление, непереведённый фрагмент) все находились в слепой для метрик зоне. Метрики не выявили ни одной ошибки точности.

Вывод

Небольшой аудит, одна модель, один набор контента — цифры ориентировочны. Но паттерн ясен: одни автоматические метрики пропускают большинство реальных проблем перевода, особенно ошибки точности. Для производственной работы с субтитрами человеческая проверка остаётся необходимой.

📖 Источник: r/LocalLLaMA

Ad

👀 Смотрите также

Разблокировка потенциала OpenClaw: интеграция с CodeX
Новости

Разблокировка потенциала OpenClaw: интеграция с CodeX

Узнайте, как пользователи OpenClaw могут без усилий вызывать CodeX для повышения функциональности. Исследуйте обсуждения пользователей и ключевые методы в этом увлекательном руководстве.

OpenClawRadar
Claude Cowork объединяет слэш-команды и навыки в единую концепцию.
Новости

Claude Cowork объединяет слэш-команды и навыки в единую концепцию.

Claude Cowork объединил слеш-команды и навыки под единой концепцией 'навыки', убрав отдельные заголовки в меню /. Устаревшие команды продолжают работать как и прежде.

OpenClawRadar
InclusionAI выпускает Ring-2.6-1T: триллионная модель для агентских рабочих процессов
Новости

InclusionAI выпускает Ring-2.6-1T: триллионная модель для агентских рабочих процессов

InclusionAI представила Ring-2.6-1T — модель рассуждений с 1 триллионом параметров, оптимизированную для выполнения агентских задач, с двумя уровнями глубины рассуждений (high/xhigh) и асинхронным RL-обучением с использованием алгоритма IcePop.

OpenClawRadar
Пользователь Reddit сравнивает Claude Sonnet 4.6 и GPT-5 по 10 задачам для ведения блога.
Новости

Пользователь Reddit сравнивает Claude Sonnet 4.6 и GPT-5 по 10 задачам для ведения блога.

Пользователь Reddit протестировал Claude Sonnet 4.6 против GPT-5, используя одинаковые промпты для 10 типичных задач ведения блога, и обнаружил, что разница во времени редактирования оказалась наиболее полезным показателем.

OpenClawRadar