Mit $3 und ohne menschliche Annotatoren feinabgestimmter Qwen2.5-7B erreicht 96% von Claude Haiku

Ein Entwickler hat Qwen2.5-7B so feinabgestimmt, dass es 96 % der Gesamtleistung von Claude Haiku bei einer domänenspezifischen Entscheidungsaufgabe erreicht – mit nur ~3 $ an API-Kosten und ohne menschliche Annotatoren. Die Methode namens DV-DPO (Decision-Validated Direct Preference Optimization) generiert automatisch Trainingssignale durch ein mehrstimmiges adversariales Gremium.
Wie DV-DPO funktioniert
Die Pipeline führt zu jeder Entscheidungsfrage ein 3-stimmiges Gremium durch, das eine Synthese erstellt. Anschließend hinterfragen die beiden unterlegenen Stimmen die Synthese. Wird die Synthese unter diesem adversarialen Druck überarbeitet, entsteht ein DPO-Paar: die Version nach der Überarbeitung ist die ausgewählte Antwort, die vor der Überarbeitung die abgelehnte Antwort. Hält die Synthese stand – wird kein Paar erstellt. Dadurch wird sichergestellt, dass nur echte Denkfehler Trainingssignale liefern, nicht Formatpräferenzen oder Abtastvarianz.
Ergebnisse
- 1.040 Trainingspaare insgesamt generiert (~3 $ zu Haiku-Preisen)
- Direkter Vergleich mit Claude Haiku: Format 100 %, Commits 100 %, Kontext 89 %, Gesamt 96 %
- Latenz: 11 s auf T4 GPU (4-Bit-Quantisierung) vs. 3 s bei Haiku
- Adversariale Fehlerrate: 2 % bei 96 gezielten Fragen
Autonomer Verbesserungszyklus
Das System durchläuft nun einen automatisierten Kreislauf: Fehlererkennung → automatisches Red-Teaming → DPO-Paare → erneutes Training → Neubereitstellung → Auswertung. Version 5 mit weiteren Paaren ist in Arbeit. Das feinabgestimmte Modell ist als GGUF-Datei für Ollama verfügbar.
Für wen das gedacht ist
Entwickler, die domänenspezifische Reasoning-Agenten bauen und von Pay-per-Call-APIs zu einem lokalen, feinabgestimmten Modell wechseln möchten, ohne teure manuelle Annotation.
📖 Vollständige Quelle lesen: r/LocalLLaMA
👀 Siehe auch

Claude Code v2.1.187: Korrekturen der strukturierten Ausgabe, Sandbox-Sicherheit und Einschränkungen des Organisationsmodells
Claude Code v2.1.187 fügt die Einstellung sandbox.credentials, Organisations-Modellbeschränkungen sowie Fehlerbehebungen für strukturierte Ausgabeschleifen, Remote-MCP-Hänger und Tiefenverfolgung von Unteragenten hinzu.

Claude plant, monatliches programmatisches Guthaben für die API-Nutzung hinzuzufügen
Die Pläne von Anthropics Claude werden ein monatliches Guthaben für die programmatische (API-)Nutzung enthalten, laut einem Tweet von ClaudeDevs auf X.

OpenAI veröffentlicht GPT-5.3-Codex-Spark in der Forschungs-Vorschau.
OpenAI hat die Einführung von GPT-5.3-Codex-Spark in einer Forschungs-Vorschau angekündigt und verspricht schnellere Entwicklungsmöglichkeiten.

MiniMax M2.7 Modell veröffentlicht mit verbesserter Codierleistung
MiniMax hat M2.7 veröffentlicht, ein KI-Modell, das 56 % in den SWE-Pro-Coding-Benchmarks erreicht und Selbstoptimierungsfähigkeiten beinhaltet. Das Modell behält den Preis von 0,30 US-Dollar pro Million Eingabe-Tokens bei.