TranslateGemma-12b: 71% Fehler von Metriken übersehen

Eine Folgeprüfung von TranslateGemma-12b-Untertitelübersetzungen zeigt, dass automatisierte Metriken echte Fehler deutlich unterschätzen. Der ursprüngliche Benchmark zeigte, dass das Modell führende Allzweckmodelle (Claude Sonnet, GPT-5.4, DeepSeek, Gemini Flash Lite) in 6 Sprachen schlug. Zur Überprüfung fügte das Team eine menschliche Bewertung hinzu.

Setup

21 englische Untertitel-Segmente aus einem Tutorial-Video
TranslateGemma-12b übersetzte in 4 Sprachen: ES, JA, TH, ZH-CN (Koreanisch und traditionelles Chinesisch wurden gestrichen)
84 Übersetzungen insgesamt, vorausgewählt, da sie bei automatisierten Metriken gut abschnitten
Jede Übersetzung wurde einer menschlichen MQM-Prüfung unterzogen

Ergebnisse

Unter der eigenen Rotschwellen-Bedingung des Dashboards (MX ≥ 5 OR CK < 0.70):

Automatisch markiert: 1/84 (1,2 %)
Vom Menschen markiert (beliebig): 60/84 (71 %)
Vom Menschen markiert (Major): 13/84 (15 %)

Pro Sprache:

ES: 0/21 automatisch, 11/21 menschlich markiert, 2/21 Major – meist Tonfall-Inkonsistenzen (formell/informell), am einfachsten von den vieren
JA: 0/21 automatisch, 17/21 menschlich markiert, 3/21 Major – Muster "flüssig, aber falsche Bedeutung"; 10 von 15 Fehlübersetzungen im Datensatz. Hoher COMETKiwi (0,86 Mittelwert) überdeckte Fehler. Gleiches Fehlermuster bei Claude Sonnet 4.6 auf JA.
TH: 0/21 automatisch, 17/21 menschlich markiert, 5/21 Major – Überproduktion: 5 Genauigkeits-/Hinzufügungsfehler (Einfügen von Inhalten, die nicht im Original sind), plus Zeichensetzungsfehler durch englische Punkte.
ZH-CN: 1/21 automatisch (Stilfehler), 15/21 menschlich markiert, 3/21 Major – darunter Weglassen von „store“, was die Bedeutung änderte, und inkonsistente Übersetzung von „ticket“ über Segmente hinweg.

Von 25 Genauigkeitsfehlern (Fehlübersetzung, Weglassung, Hinzufügung, unübersetzt) befanden sich alle im metric-blinden Quadranten. Die Metriken erfassten keinen einzigen Genauigkeitsfehler.

Fazit

Kleine Prüfung, ein Modell, ein Inhaltssatz – die Zahlen sind richtungsweisend. Aber das Muster ist klar: Automatisierte Metriken allein übersehen die Mehrheit der echten Übersetzungsprobleme, insbesondere Genauigkeitsfehler. Für die Produktion von Untertiteln ist die menschliche Überprüfung weiterhin unerlässlich.

📖 Read the full source: r/LocalLLaMA

TranslateGemma-12b: Menschliche Überprüfung erkennt 71% der Fehler, die automatisierte Metriken übersehen

Setup

Ergebnisse

Fazit

👀 Siehe auch

Die Claude API verzeichnete am 25. Februar 2026 bei mehreren Modellen erhöhte Fehlerraten.

Pentagon übermittelt Anthropic letztes Angebot für militärische KI-Nutzung im Streit

Claude fügt Gesprächen interaktive Diagramme und Grafiken direkt im Text hinzu.

Claude-Code v2.1.97 Veröffentlichung: NO_FLICKER-Verbesserungen, Berechtigungsbehebungen und MCP-Updates