Mit $3 und ohne menschliche Annotatoren feinabgestimmter Qwen2.5-7B erreicht 96% von Claude Haiku

✍️ OpenClawRadar📅 Veröffentlicht: 11. Juni 2026🔗 Source

Ein Entwickler hat Qwen2.5-7B so feinabgestimmt, dass es 96 % der Gesamtleistung von Claude Haiku bei einer domänenspezifischen Entscheidungsaufgabe erreicht – mit nur ~3 $ an API-Kosten und ohne menschliche Annotatoren. Die Methode namens DV-DPO (Decision-Validated Direct Preference Optimization) generiert automatisch Trainingssignale durch ein mehrstimmiges adversariales Gremium.

Wie DV-DPO funktioniert

Die Pipeline führt zu jeder Entscheidungsfrage ein 3-stimmiges Gremium durch, das eine Synthese erstellt. Anschließend hinterfragen die beiden unterlegenen Stimmen die Synthese. Wird die Synthese unter diesem adversarialen Druck überarbeitet, entsteht ein DPO-Paar: die Version nach der Überarbeitung ist die ausgewählte Antwort, die vor der Überarbeitung die abgelehnte Antwort. Hält die Synthese stand – wird kein Paar erstellt. Dadurch wird sichergestellt, dass nur echte Denkfehler Trainingssignale liefern, nicht Formatpräferenzen oder Abtastvarianz.

Ergebnisse

1.040 Trainingspaare insgesamt generiert (~3 $ zu Haiku-Preisen)
Direkter Vergleich mit Claude Haiku: Format 100 %, Commits 100 %, Kontext 89 %, Gesamt 96 %
Latenz: 11 s auf T4 GPU (4-Bit-Quantisierung) vs. 3 s bei Haiku
Adversariale Fehlerrate: 2 % bei 96 gezielten Fragen

Autonomer Verbesserungszyklus

Das System durchläuft nun einen automatisierten Kreislauf: Fehlererkennung → automatisches Red-Teaming → DPO-Paare → erneutes Training → Neubereitstellung → Auswertung. Version 5 mit weiteren Paaren ist in Arbeit. Das feinabgestimmte Modell ist als GGUF-Datei für Ollama verfügbar.

Für wen das gedacht ist

Entwickler, die domänenspezifische Reasoning-Agenten bauen und von Pay-per-Call-APIs zu einem lokalen, feinabgestimmten Modell wechseln möchten, ohne teure manuelle Annotation.

📖 Vollständige Quelle lesen: r/LocalLLaMA

👀 Siehe auch

Nachrichten

Claude Code v2.1.187: Korrekturen der strukturierten Ausgabe, Sandbox-Sicherheit und Einschränkungen des Organisationsmodells

Claude Code v2.1.187 fügt die Einstellung sandbox.credentials, Organisations-Modellbeschränkungen sowie Fehlerbehebungen für strukturierte Ausgabeschleifen, Remote-MCP-Hänger und Tiefenverfolgung von Unteragenten hinzu.

24. Juni 2026, 00:17 UTC

OpenClawRadar

Nachrichten

Claude plant, monatliches programmatisches Guthaben für die API-Nutzung hinzuzufügen

Die Pläne von Anthropics Claude werden ein monatliches Guthaben für die programmatische (API-)Nutzung enthalten, laut einem Tweet von ClaudeDevs auf X.

14. Mai 2026, 02:16 UTC

OpenClawRadar

Nachrichten

OpenAI veröffentlicht GPT-5.3-Codex-Spark in der Forschungs-Vorschau.

OpenAI hat die Einführung von GPT-5.3-Codex-Spark in einer Forschungs-Vorschau angekündigt und verspricht schnellere Entwicklungsmöglichkeiten.

13. Feb. 2026, 06:45 UTC

OpenClawRadar

Nachrichten

MiniMax M2.7 Modell veröffentlicht mit verbesserter Codierleistung

MiniMax hat M2.7 veröffentlicht, ein KI-Modell, das 56 % in den SWE-Pro-Coding-Benchmarks erreicht und Selbstoptimierungsfähigkeiten beinhaltet. Das Modell behält den Preis von 0,30 US-Dollar pro Million Eingabe-Tokens bei.

19. März 2026, 09:45 UTC

OpenClawRadar