Selbstüberwachtes Feintuning: Kleine Modelle auf 80% HumanEval

Ein Entwickler auf r/LocalLLaMA implementierte eine selbstüberwachte Trainingsschleife, bei der ein kleines Sprachmodell eigene Codierungsprobleme generiert, Lösungen versucht und auf den Paaren feinabstimmt, bei denen der Interpreter die Korrektheit bestätigt. Die entscheidende Erkenntnis aus dem DeepSeek-R1-Papier – dass Modelle sich durch überprüfbare Belohnungen verbessern können – wurde ohne menschlich gekennzeichnete Daten angewendet.

Methode

Das Basismodell (ausgehend von Qwen 2.5 7B) wurde aufgefordert, ein Codierungsproblem und ein paar kleine Tests zu erfinden. Anschließend löste es dasselbe Problem mehrmals. Der Python-Interpreter fungierte als einziger Richter: Paare aus (fehlgeschlagener Versuch, funktionierender Versuch) wurden gespeichert. Die Feinabstimmung erfolgte auf diesen selbstermittelten Korrekturen. Es wurde kein von Menschen geschriebener Code im Training verwendet.

Ergebnisse

Qwen 2.5 7B Basis: 25 → 112 auf HumanEval (+87 Probleme) nach der Behebung eines Grader-Fehlers, der Funktionsausgaben abschnitt.
Qwen 2.5 14B: 100 Paare abgebaut, in 95 Minuten auf einer H100 trainiert (3,50 $ an Credits). Erreichte innerhalb von 4 Punkten der RLHF-Version desselben Unternehmens.
Llama 3.2 3B: 32 Paare → 39 → 43 auf HumanEval. Bestätigt Übertragbarkeit über Architekturen hinweg.
Qwen 2.5 Coder 7B: Bereits auf Code spezialisiert, dennoch verbessert: HumanEval 83 → 87, MBPP 122 → 124.
Qwen 3 4B: HumanEval 79 → 106 (+27), MBPP 135 → 148.

Kontrollexperiment

Um zu überprüfen, ob das Signal nicht aus generischem Training stammte, erstellte der Autor gefälschte Paare mit zufälligem Müllcode, der keine Tests bestand. Das Training darauf ergab keine Steigerung (25/164, wie die Basis). Die Verbesserung stammt spezifisch aus dem Lernen an selbstgenerierten Fehlern und Korrekturen.

Praktische Details

Der erste Versuch schlug fehl, weil der Grader früh stoppte und die Modellausgaben halbierte. Die Behebung des Graders war entscheidend. Der gesamte Aufbau lief auf einem 24GB MacBook und einem RunPod-Konto. Der Code und die Trainingsskripte wurden vermutlich im Reddit-Beitrag geteilt.

Für wen es gedacht ist

Entwickler und Forscher, die mit kleinen Sprachmodellen arbeiten und Code-Reasoning ohne menschliche Annotationen bootstrappen möchten.

📖 Vollständige Quelle lesen: r/LocalLLaMA

Selbstüberwachtes Feintuning an eigenen Fehlern steigert kleine Modelle auf 80 % bei HumanEval

Methode

Ergebnisse

Kontrollexperiment

Praktische Details

Für wen es gedacht ist

👀 Siehe auch

Bram Cohen kritisiert 'Vibe Coding' und KI-gestützte Entwicklungspraktiken

OpenClaw 2026.3.11 Release fügt lokale Ollama-Einrichtung, multimodalen Speicher und Discord-Thread-Steuerung hinzu

Kimi K2.6 schlägt Claude, GPT-5.5 und Gemini bei Programmierherausforderung mit aggressiver Gleitstrategie

Claude Code v2.1.136: Harte Ablehnung für den automatischen Modus, MCP-OAuth-Fixes und über 40 Fehlerbehebungen