Mit $3 und ohne menschliche Annotatoren feinabgestimmter Qwen2.5-7B erreicht 96% von Claude Haiku

✍️ OpenClawRadar📅 Veröffentlicht: 11. Juni 2026🔗 Source
Mit $3 und ohne menschliche Annotatoren feinabgestimmter Qwen2.5-7B erreicht 96% von Claude Haiku
Ad

Ein Entwickler hat Qwen2.5-7B so feinabgestimmt, dass es 96 % der Gesamtleistung von Claude Haiku bei einer domänenspezifischen Entscheidungsaufgabe erreicht – mit nur ~3 $ an API-Kosten und ohne menschliche Annotatoren. Die Methode namens DV-DPO (Decision-Validated Direct Preference Optimization) generiert automatisch Trainingssignale durch ein mehrstimmiges adversariales Gremium.

Wie DV-DPO funktioniert

Die Pipeline führt zu jeder Entscheidungsfrage ein 3-stimmiges Gremium durch, das eine Synthese erstellt. Anschließend hinterfragen die beiden unterlegenen Stimmen die Synthese. Wird die Synthese unter diesem adversarialen Druck überarbeitet, entsteht ein DPO-Paar: die Version nach der Überarbeitung ist die ausgewählte Antwort, die vor der Überarbeitung die abgelehnte Antwort. Hält die Synthese stand – wird kein Paar erstellt. Dadurch wird sichergestellt, dass nur echte Denkfehler Trainingssignale liefern, nicht Formatpräferenzen oder Abtastvarianz.

Ad

Ergebnisse

  • 1.040 Trainingspaare insgesamt generiert (~3 $ zu Haiku-Preisen)
  • Direkter Vergleich mit Claude Haiku: Format 100 %, Commits 100 %, Kontext 89 %, Gesamt 96 %
  • Latenz: 11 s auf T4 GPU (4-Bit-Quantisierung) vs. 3 s bei Haiku
  • Adversariale Fehlerrate: 2 % bei 96 gezielten Fragen

Autonomer Verbesserungszyklus

Das System durchläuft nun einen automatisierten Kreislauf: Fehlererkennung → automatisches Red-Teaming → DPO-Paare → erneutes Training → Neubereitstellung → Auswertung. Version 5 mit weiteren Paaren ist in Arbeit. Das feinabgestimmte Modell ist als GGUF-Datei für Ollama verfügbar.

Für wen das gedacht ist

Entwickler, die domänenspezifische Reasoning-Agenten bauen und von Pay-per-Call-APIs zu einem lokalen, feinabgestimmten Modell wechseln möchten, ohne teure manuelle Annotation.

📖 Vollständige Quelle lesen: r/LocalLLaMA

Ad

👀 Siehe auch