TranslateGemma-12b: Menschliche Überprüfung erkennt 71% der Fehler, die automatisierte Metriken übersehen

✍️ OpenClawRadar📅 Veröffentlicht: 12. Mai 2026🔗 Source
TranslateGemma-12b: Menschliche Überprüfung erkennt 71% der Fehler, die automatisierte Metriken übersehen
Ad

Eine Folgeprüfung von TranslateGemma-12b-Untertitelübersetzungen zeigt, dass automatisierte Metriken echte Fehler deutlich unterschätzen. Der ursprüngliche Benchmark zeigte, dass das Modell führende Allzweckmodelle (Claude Sonnet, GPT-5.4, DeepSeek, Gemini Flash Lite) in 6 Sprachen schlug. Zur Überprüfung fügte das Team eine menschliche Bewertung hinzu.

Setup

  • 21 englische Untertitel-Segmente aus einem Tutorial-Video
  • TranslateGemma-12b übersetzte in 4 Sprachen: ES, JA, TH, ZH-CN (Koreanisch und traditionelles Chinesisch wurden gestrichen)
  • 84 Übersetzungen insgesamt, vorausgewählt, da sie bei automatisierten Metriken gut abschnitten
  • Jede Übersetzung wurde einer menschlichen MQM-Prüfung unterzogen
Ad

Ergebnisse

Unter der eigenen Rotschwellen-Bedingung des Dashboards (MX ≥ 5 OR CK < 0.70):

  • Automatisch markiert: 1/84 (1,2 %)
  • Vom Menschen markiert (beliebig): 60/84 (71 %)
  • Vom Menschen markiert (Major): 13/84 (15 %)

Pro Sprache:

  • ES: 0/21 automatisch, 11/21 menschlich markiert, 2/21 Major – meist Tonfall-Inkonsistenzen (formell/informell), am einfachsten von den vieren
  • JA: 0/21 automatisch, 17/21 menschlich markiert, 3/21 Major – Muster "flüssig, aber falsche Bedeutung"; 10 von 15 Fehlübersetzungen im Datensatz. Hoher COMETKiwi (0,86 Mittelwert) überdeckte Fehler. Gleiches Fehlermuster bei Claude Sonnet 4.6 auf JA.
  • TH: 0/21 automatisch, 17/21 menschlich markiert, 5/21 Major – Überproduktion: 5 Genauigkeits-/Hinzufügungsfehler (Einfügen von Inhalten, die nicht im Original sind), plus Zeichensetzungsfehler durch englische Punkte.
  • ZH-CN: 1/21 automatisch (Stilfehler), 15/21 menschlich markiert, 3/21 Major – darunter Weglassen von „store“, was die Bedeutung änderte, und inkonsistente Übersetzung von „ticket“ über Segmente hinweg.

Von 25 Genauigkeitsfehlern (Fehlübersetzung, Weglassung, Hinzufügung, unübersetzt) befanden sich alle im metric-blinden Quadranten. Die Metriken erfassten keinen einzigen Genauigkeitsfehler.

Fazit

Kleine Prüfung, ein Modell, ein Inhaltssatz – die Zahlen sind richtungsweisend. Aber das Muster ist klar: Automatisierte Metriken allein übersehen die Mehrheit der echten Übersetzungsprobleme, insbesondere Genauigkeitsfehler. Für die Produktion von Untertiteln ist die menschliche Überprüfung weiterhin unerlässlich.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch