TranslateGemma-12b: Человеческая проверка выявляет 71% ошибок, пропущенных автоматическими метриками

Последующий аудит субтитров TranslateGemma-12b показывает, что автоматические метрики значительно недооценивают реальные ошибки. Первоначальный бенчмарк показал, что модель превосходит ведущие универсальные модели (Claude Sonnet, GPT-5.4, DeepSeek, Gemini Flash Lite) на 6 языках. Для проверки команда добавила человеческую оценку.
Настройка
- 21 сегмент английских субтитров из одного обучающего видео
- TranslateGemma-12b перевела на 4 языка: ES, JA, TH, ZH-CN (корейский и традиционный китайский были исключены)
- Всего 84 перевода, заранее отобранных как получивших высокие оценки по автоматическим метрикам
- Каждый перевод отправлен на человеческую проверку MQM
Результаты
По порогу срабатывания системы (MX ≥ 5 OR CK < 0.70):
- Автоматически отмечено: 1/84 (1,2%)
- Отмечено человеком (любые): 60/84 (71%)
- Отмечено человеком (критические): 13/84 (15%)
По языкам:
- ES: 0/21 авто, 11/21 отмечено человеком, 2/21 критических — в основном проблемы с тоном (переключение формального/неформального), самый лёгкий из четырёх
- JA: 0/21 авто, 17/21 отмечено человеком, 3/21 критических — паттерн «бегло, но неверный смысл»; 10 из 15 всех искажений в наборе данных. Высокий COMETKiwi (среднее 0.86) маскировал ошибки. Тот же сбой наблюдался у Claude Sonnet 4.6 на JA.
- TH: 0/21 авто, 17/21 отмечено человеком, 5/21 критических — избыточность: 5 ошибок точности/добавления (вставка отсутствующего в оригинале контента), плюс пунктуационные ошибки из-за английских точек.
- ZH-CN: 1/21 авто (ошибка стиля), 15/21 отмечено человеком, 3/21 критических — включая пропуск слова «store», меняющий смысл, и непоследовательный перевод «ticket» в разных сегментах.
Из 25 ошибок класса «точность» (искажение, пропуск, добавление, непереведённый фрагмент) все находились в слепой для метрик зоне. Метрики не выявили ни одной ошибки точности.
Вывод
Небольшой аудит, одна модель, один набор контента — цифры ориентировочны. Но паттерн ясен: одни автоматические метрики пропускают большинство реальных проблем перевода, особенно ошибки точности. Для производственной работы с субтитрами человеческая проверка остаётся необходимой.
📖 Источник: r/LocalLLaMA
👀 Смотрите также

Разблокировка потенциала OpenClaw: интеграция с CodeX
Узнайте, как пользователи OpenClaw могут без усилий вызывать CodeX для повышения функциональности. Исследуйте обсуждения пользователей и ключевые методы в этом увлекательном руководстве.

Claude Cowork объединяет слэш-команды и навыки в единую концепцию.
Claude Cowork объединил слеш-команды и навыки под единой концепцией 'навыки', убрав отдельные заголовки в меню /. Устаревшие команды продолжают работать как и прежде.

InclusionAI выпускает Ring-2.6-1T: триллионная модель для агентских рабочих процессов
InclusionAI представила Ring-2.6-1T — модель рассуждений с 1 триллионом параметров, оптимизированную для выполнения агентских задач, с двумя уровнями глубины рассуждений (high/xhigh) и асинхронным RL-обучением с использованием алгоритма IcePop.

Пользователь Reddit сравнивает Claude Sonnet 4.6 и GPT-5 по 10 задачам для ведения блога.
Пользователь Reddit протестировал Claude Sonnet 4.6 против GPT-5, используя одинаковые промпты для 10 типичных задач ведения блога, и обнаружил, что разница во времени редактирования оказалась наиболее полезным показателем.