Selbstüberwachtes Feintuning an eigenen Fehlern steigert kleine Modelle auf 80 % bei HumanEval

Ein Entwickler auf r/LocalLLaMA implementierte eine selbstüberwachte Trainingsschleife, bei der ein kleines Sprachmodell eigene Codierungsprobleme generiert, Lösungen versucht und auf den Paaren feinabstimmt, bei denen der Interpreter die Korrektheit bestätigt. Die entscheidende Erkenntnis aus dem DeepSeek-R1-Papier – dass Modelle sich durch überprüfbare Belohnungen verbessern können – wurde ohne menschlich gekennzeichnete Daten angewendet.
Methode
Das Basismodell (ausgehend von Qwen 2.5 7B) wurde aufgefordert, ein Codierungsproblem und ein paar kleine Tests zu erfinden. Anschließend löste es dasselbe Problem mehrmals. Der Python-Interpreter fungierte als einziger Richter: Paare aus (fehlgeschlagener Versuch, funktionierender Versuch) wurden gespeichert. Die Feinabstimmung erfolgte auf diesen selbstermittelten Korrekturen. Es wurde kein von Menschen geschriebener Code im Training verwendet.
Ergebnisse
- Qwen 2.5 7B Basis: 25 → 112 auf HumanEval (+87 Probleme) nach der Behebung eines Grader-Fehlers, der Funktionsausgaben abschnitt.
- Qwen 2.5 14B: 100 Paare abgebaut, in 95 Minuten auf einer H100 trainiert (3,50 $ an Credits). Erreichte innerhalb von 4 Punkten der RLHF-Version desselben Unternehmens.
- Llama 3.2 3B: 32 Paare → 39 → 43 auf HumanEval. Bestätigt Übertragbarkeit über Architekturen hinweg.
- Qwen 2.5 Coder 7B: Bereits auf Code spezialisiert, dennoch verbessert: HumanEval 83 → 87, MBPP 122 → 124.
- Qwen 3 4B: HumanEval 79 → 106 (+27), MBPP 135 → 148.
Kontrollexperiment
Um zu überprüfen, ob das Signal nicht aus generischem Training stammte, erstellte der Autor gefälschte Paare mit zufälligem Müllcode, der keine Tests bestand. Das Training darauf ergab keine Steigerung (25/164, wie die Basis). Die Verbesserung stammt spezifisch aus dem Lernen an selbstgenerierten Fehlern und Korrekturen.
Praktische Details
Der erste Versuch schlug fehl, weil der Grader früh stoppte und die Modellausgaben halbierte. Die Behebung des Graders war entscheidend. Der gesamte Aufbau lief auf einem 24GB MacBook und einem RunPod-Konto. Der Code und die Trainingsskripte wurden vermutlich im Reddit-Beitrag geteilt.
Für wen es gedacht ist
Entwickler und Forscher, die mit kleinen Sprachmodellen arbeiten und Code-Reasoning ohne menschliche Annotationen bootstrappen möchten.
📖 Vollständige Quelle lesen: r/LocalLLaMA
👀 Siehe auch

Greg Kroah-Hartmans Clanker T1000: Lokales LLM auf Framework Desktop mit AMD Ryzen AI Max, das Linux-Kernel-Bug fuzzt
Greg KH's 'gregkh_clanker_t1000' verwendet ein lokales LLM, das auf einem Framework Desktop (AMD Ryzen AI Max+) läuft, um den Linux-Kernel zu fuzzen, was zu ~20 zusammengeführten Patches seit dem 7. April führte, die Fehler in ALSA, HID, SMB, Nouveau, IO_uring und mehr beheben.

Claude Code v2.1.101 fügt Team-Onboarding, Enterprise-TLS-Unterstützung hinzu und behebt Speicherlecks.
Claude Code v2.1.101 führt den Befehl /team-onboarding zur Erstellung von Einarbeitungsleitfäden für Teammitglieder ein, aktiviert standardmäßig das Vertrauen in den OS-CA-Zertifikatsspeicher für Unternehmens-TLS-Proxys und behebt einen Speicherleck in langen Sitzungen sowie über 25 weitere Verbesserungen und Fehlerbehebungen.

Entwickler-Dilemma: Nationale Sicherheitsbedenken schränken die Auswahl offener Modelle ein
Ein Entwickler, der mit sicherheitsempfindlichen Kunden arbeitet, berichtet, dass er gezwungen ist, zwischen veralteten US-Open-Modellen wie gpt-oss-120b oder leistungsfähigeren chinesischen Modellen wie GLM und MiniMax zu wählen, die Kunden als nationale Sicherheitsrisiken ablehnen.

Anthropic startet Claude Partner Network mit 100 Millionen US-Dollar Investition
Anthropic startet das Claude Partner Network mit einer anfänglichen Investition von 100 Millionen US-Dollar für 2026, das Schulungen, technischen Support und gemeinsame Marktentwicklung für Organisationen bietet, die Unternehmen bei der Einführung von Claude unterstützen. Partner erhalten Zugang zu technischen Zertifizierungen, einem Partner-Portal mit Schulungsmaterialien und einem Code-Modernisierung-Starterkit für die Migration von Legacy-Code.