Einfache Selbst-Distillationsmethode verbessert die Code-Generierung von LLMs

✍️ OpenClawRadar📅 Veröffentlicht: 14. April 2026🔗 Source
Einfache Selbst-Distillationsmethode verbessert die Code-Generierung von LLMs
Ad

Was einfache Selbstdestillation bewirkt

Einfache Selbstdestillation (SSD) ist eine Nachschulungsmethode, bei der Lösungen von einem großen Sprachmodell mit spezifischen Temperatur- und Trunkierungskonfigurationen abgetastet werden und dann das Modell auf diesen Stichproben mit Standard-überwachter Feinabstimmung feinabgestimmt wird. Die zentrale Erkenntnis ist, dass dies funktioniert, ohne einen Verifizierer, ein Lehrermodell oder bestärkendes Lernen zu benötigen.

Leistungsverbesserungen

Bei Qwen3-30B-Instruct verbesserte SSD die pass@1-Leistung auf LiveCodeBench v6 von 42,4 % auf 55,3 %. Die Gewinne konzentrierten sich auf schwierigere Probleme, und die Methode verallgemeinerte sich über Qwen- und Llama-Modelle im Maßstab 4B, 8B und 30B, einschließlich sowohl Instruktions- als auch Denkvariationen.

Ad

Warum es funktioniert

Die Forscher führten die Gewinne auf einen Präzisions-Explorations-Konflikt in der LLM-Decodierung zurück. SSD formt Token-Verteilungen auf kontextabhängige Weise um, unterdrückt ablenkende Ausläufer, wo Präzision wichtig ist, während nützliche Vielfalt dort erhalten bleibt, wo Exploration wichtig ist. Dies adressiert die grundlegende Spannung zwischen der Generierung präzisen Codes und der Erkundung verschiedener Lösungsansätze.

Praktische Implikationen

SSD bietet eine komplementäre Nachschulungsrichtung zur Verbesserung der LLM-Codegenerierung, die im Vergleich zu Methoden, die Verifizierer oder bestärkendes Lernen erfordern, relativ einfach zu implementieren ist. Der Ansatz funktioniert mit bestehender Feinabstimmungsinfrastruktur und erfordert keine zusätzlichen Modelle oder komplexen Belohnungssysteme.

📖 Read the full source: HN AI Agents

Ad

👀 Siehe auch