TranslateGemma-12b: 71% ошибок, пропущенных автоматическими метриками

Последующий аудит субтитров TranslateGemma-12b показывает, что автоматические метрики значительно недооценивают реальные ошибки. Первоначальный бенчмарк показал, что модель превосходит ведущие универсальные модели (Claude Sonnet, GPT-5.4, DeepSeek, Gemini Flash Lite) на 6 языках. Для проверки команда добавила человеческую оценку.

Настройка

21 сегмент английских субтитров из одного обучающего видео
TranslateGemma-12b перевела на 4 языка: ES, JA, TH, ZH-CN (корейский и традиционный китайский были исключены)
Всего 84 перевода, заранее отобранных как получивших высокие оценки по автоматическим метрикам
Каждый перевод отправлен на человеческую проверку MQM

Результаты

По порогу срабатывания системы (MX ≥ 5 OR CK < 0.70):

Автоматически отмечено: 1/84 (1,2%)
Отмечено человеком (любые): 60/84 (71%)
Отмечено человеком (критические): 13/84 (15%)

По языкам:

ES: 0/21 авто, 11/21 отмечено человеком, 2/21 критических — в основном проблемы с тоном (переключение формального/неформального), самый лёгкий из четырёх
JA: 0/21 авто, 17/21 отмечено человеком, 3/21 критических — паттерн «бегло, но неверный смысл»; 10 из 15 всех искажений в наборе данных. Высокий COMETKiwi (среднее 0.86) маскировал ошибки. Тот же сбой наблюдался у Claude Sonnet 4.6 на JA.
TH: 0/21 авто, 17/21 отмечено человеком, 5/21 критических — избыточность: 5 ошибок точности/добавления (вставка отсутствующего в оригинале контента), плюс пунктуационные ошибки из-за английских точек.
ZH-CN: 1/21 авто (ошибка стиля), 15/21 отмечено человеком, 3/21 критических — включая пропуск слова «store», меняющий смысл, и непоследовательный перевод «ticket» в разных сегментах.

Из 25 ошибок класса «точность» (искажение, пропуск, добавление, непереведённый фрагмент) все находились в слепой для метрик зоне. Метрики не выявили ни одной ошибки точности.

Вывод

Небольшой аудит, одна модель, один набор контента — цифры ориентировочны. Но паттерн ясен: одни автоматические метрики пропускают большинство реальных проблем перевода, особенно ошибки точности. Для производственной работы с субтитрами человеческая проверка остаётся необходимой.

📖 Источник: r/LocalLLaMA

TranslateGemma-12b: Человеческая проверка выявляет 71% ошибок, пропущенных автоматическими метриками

Настройка

Результаты

Вывод

👀 Смотрите также

OpenAI разрабатывает AI-смартфон на чипах MediaTek/Qualcomm; цель массового производства — 2028 год

Приятель отказался от роли с оплатой $300k+ за замену 70% персонала агентами Claude — Reddit обсуждает моральную и техническую реальность

Anthropic разделяет подписки на Claude от использования сторонних инструментов.

Обсуждение OpenClaw по вопросам обмена сообщениями и контекстом между ИИ-агентами