TranslateGemma-12b: Menschliche Überprüfung erkennt 71% der Fehler, die automatisierte Metriken übersehen

Eine Folgeprüfung von TranslateGemma-12b-Untertitelübersetzungen zeigt, dass automatisierte Metriken echte Fehler deutlich unterschätzen. Der ursprüngliche Benchmark zeigte, dass das Modell führende Allzweckmodelle (Claude Sonnet, GPT-5.4, DeepSeek, Gemini Flash Lite) in 6 Sprachen schlug. Zur Überprüfung fügte das Team eine menschliche Bewertung hinzu.
Setup
- 21 englische Untertitel-Segmente aus einem Tutorial-Video
- TranslateGemma-12b übersetzte in 4 Sprachen: ES, JA, TH, ZH-CN (Koreanisch und traditionelles Chinesisch wurden gestrichen)
- 84 Übersetzungen insgesamt, vorausgewählt, da sie bei automatisierten Metriken gut abschnitten
- Jede Übersetzung wurde einer menschlichen MQM-Prüfung unterzogen
Ergebnisse
Unter der eigenen Rotschwellen-Bedingung des Dashboards (MX ≥ 5 OR CK < 0.70):
- Automatisch markiert: 1/84 (1,2 %)
- Vom Menschen markiert (beliebig): 60/84 (71 %)
- Vom Menschen markiert (Major): 13/84 (15 %)
Pro Sprache:
- ES: 0/21 automatisch, 11/21 menschlich markiert, 2/21 Major – meist Tonfall-Inkonsistenzen (formell/informell), am einfachsten von den vieren
- JA: 0/21 automatisch, 17/21 menschlich markiert, 3/21 Major – Muster "flüssig, aber falsche Bedeutung"; 10 von 15 Fehlübersetzungen im Datensatz. Hoher COMETKiwi (0,86 Mittelwert) überdeckte Fehler. Gleiches Fehlermuster bei Claude Sonnet 4.6 auf JA.
- TH: 0/21 automatisch, 17/21 menschlich markiert, 5/21 Major – Überproduktion: 5 Genauigkeits-/Hinzufügungsfehler (Einfügen von Inhalten, die nicht im Original sind), plus Zeichensetzungsfehler durch englische Punkte.
- ZH-CN: 1/21 automatisch (Stilfehler), 15/21 menschlich markiert, 3/21 Major – darunter Weglassen von „store“, was die Bedeutung änderte, und inkonsistente Übersetzung von „ticket“ über Segmente hinweg.
Von 25 Genauigkeitsfehlern (Fehlübersetzung, Weglassung, Hinzufügung, unübersetzt) befanden sich alle im metric-blinden Quadranten. Die Metriken erfassten keinen einzigen Genauigkeitsfehler.
Fazit
Kleine Prüfung, ein Modell, ein Inhaltssatz – die Zahlen sind richtungsweisend. Aber das Muster ist klar: Automatisierte Metriken allein übersehen die Mehrheit der echten Übersetzungsprobleme, insbesondere Genauigkeitsfehler. Für die Produktion von Untertiteln ist die menschliche Überprüfung weiterhin unerlässlich.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

OpenRouter-Benutzer melden Signatur-Bug in Sonnet 4.5 Thinking Blocks
Ein Bug im extended thinking Modus von Claude Sonnet 4.5 ueber OpenRouter verursacht Signaturvalidierungsfehler.

Claude Code Opus schlägt mit Rate-Limit-Fehler trotz verfügbarer wöchentlicher Kapazität fehl
Ein Claude Max-Abonnent berichtet, dass Claude Code Opus 'API-Fehler: Ratenlimit erreicht' zurückgibt, obwohl sein Nutzungs-Dashboard zeigt, dass 97 % seiner wöchentlichen Kapazität für 'Alle Modelle' ungenutzt bleibt. Das Problem tritt speziell in Claude Code auf, während Opus im selben Konto auf claude.ai normal funktioniert.

Claude-Code-Cache-Fehler können die API-Kosten um das 10- bis 20-fache erhöhen
Zwei Cache-Fehler in Claude Code können API-Kosten stillschweigend um das 10- bis 20-fache erhöhen. Die Probleme wurden auf Reddit gemeldet und auf Hacker News diskutiert.

Nano-Native-Marktplatz ebnet den Weg für die Zusammenarbeit autonomer Agenten mit NanoBazaar.
NanoBazaar, der neue nano-native Marktplatz, revolutioniert die Zusammenarbeit zwischen Agenten, indem er KI-Codierungsagenten ermöglicht, autonom und effizient zu kooperieren. Entdecken Sie, wie diese innovative Plattform maschinengetriebene Transaktionen ermöglicht.