Einfache Selbst-Distillationsmethode verbessert die Code-Generierung von LLMs

✍️ OpenClawRadar📅 Veröffentlicht: 14. April 2026🔗 Source

Was einfache Selbstdestillation bewirkt

Einfache Selbstdestillation (SSD) ist eine Nachschulungsmethode, bei der Lösungen von einem großen Sprachmodell mit spezifischen Temperatur- und Trunkierungskonfigurationen abgetastet werden und dann das Modell auf diesen Stichproben mit Standard-überwachter Feinabstimmung feinabgestimmt wird. Die zentrale Erkenntnis ist, dass dies funktioniert, ohne einen Verifizierer, ein Lehrermodell oder bestärkendes Lernen zu benötigen.

Leistungsverbesserungen

Bei Qwen3-30B-Instruct verbesserte SSD die pass@1-Leistung auf LiveCodeBench v6 von 42,4 % auf 55,3 %. Die Gewinne konzentrierten sich auf schwierigere Probleme, und die Methode verallgemeinerte sich über Qwen- und Llama-Modelle im Maßstab 4B, 8B und 30B, einschließlich sowohl Instruktions- als auch Denkvariationen.

Warum es funktioniert

Die Forscher führten die Gewinne auf einen Präzisions-Explorations-Konflikt in der LLM-Decodierung zurück. SSD formt Token-Verteilungen auf kontextabhängige Weise um, unterdrückt ablenkende Ausläufer, wo Präzision wichtig ist, während nützliche Vielfalt dort erhalten bleibt, wo Exploration wichtig ist. Dies adressiert die grundlegende Spannung zwischen der Generierung präzisen Codes und der Erkundung verschiedener Lösungsansätze.

Praktische Implikationen

SSD bietet eine komplementäre Nachschulungsrichtung zur Verbesserung der LLM-Codegenerierung, die im Vergleich zu Methoden, die Verifizierer oder bestärkendes Lernen erfordern, relativ einfach zu implementieren ist. Der Ansatz funktioniert mit bestehender Feinabstimmungsinfrastruktur und erfordert keine zusätzlichen Modelle oder komplexen Belohnungssysteme.

📖 Read the full source: HN AI Agents

👀 Siehe auch

Nachrichten

Claude CLI-Richtlinienabweichungsproblem von Entwickler gemeldet

Ein Entwickler berichtet, dass Claude CLI konsequent Projektrichtlinien ignoriert, die in Dateien des .claude-Ordners gespeichert sind, insbesondere nach automatischen Komprimierungsvorgängen. Das Tool führt verbotene Hintergrundprozesse aus und löscht Aufgaben-/Sitzungsdaten trotz ausdrücklicher Anweisungen.

19. Apr. 2026, 23:45 UTC

OpenClawRadar

Nachrichten

Benchmarking der neuesten KI-Modelle: Der Aufstieg der extremen Modelle

Eine detaillierte Bewertung von 40 neuen KI-Modellen zeigt einen gespaltenen Markt, in dem 'God Mode' und 'Flash Mode' führend sind. Mittelklasse-Modelle gelten mittlerweile als obsolet.

13. Feb. 2026, 04:45 UTC

OpenClawRadar

Nachrichten

Claude Code v2.1.196: Standardmodelle der Organisation, Sicherheitskorrektur, Hintergrundjob-Wiederherstellung

Claude Code v2.1.196 führt Standardmodelle für Organisationen ein, behebt ein Sicherheitsproblem beim MCP-Server-Spawning, verbessert die Zuverlässigkeit von Hintergrundsitzungen und reduziert die Token-Nutzung in /code-review um 25%.

30. Juni 2026, 00:15 UTC

OpenClawRadar

Nachrichten

MLX-Inferenzleistungsupdate: Benchmarks und Funktionen vom April 2026

Die MLX-Inferenzleistung hat sich erheblich verbessert, wobei Qwen3.5-35B-A3B bei einem 4K-Kontext 71,8 Token/Sekunde erreicht. Neue Funktionen wie Multi-Token Prediction und SpecPrefill bieten für große Modelle eine 2,3- bis 5,5-fache Beschleunigung.

14. Apr. 2026, 02:45 UTC

OpenClawRadar