Affinage de Qwen2.5-7B : 96% de Claude Haiku pour 3$

Un développeur a affiné Qwen2.5-7B pour atteindre 96% des performances composites de Claude Haiku sur une tâche de raisonnement décisionnel spécifique au domaine — en dépensant seulement ~3$ en appels API et en utilisant zéro étiqueteur humain. La méthode, appelée DV-DPO (Decision-Validated Direct Preference Optimization), génère de manière autonome un signal d'apprentissage en exécutant un conseil contradictoire multi-voix.

Comment fonctionne DV-DPO

Le pipeline exécute un conseil à 3 voix sur chaque question décisionnelle, produisant une synthèse. Ensuite, les deux voix perdantes contre-interrogent la synthèse. Si la synthèse est révisée sous cette pression contradictoire, une paire DPO est formée : la version post-révision est la réponse choisie, et la version pré-révision est la réponse rejetée. Si la synthèse tient — aucune paire n'est créée. Cela garantit que seules les erreurs de raisonnement réelles produisent un signal d'apprentissage, et non les préférences de format ou la variance d'échantillonnage.

Résultats

1 040 paires d'entraînement générées au total (~3$ aux tarifs Haiku)
Face-à-face avec Claude Haiku : Format 100%, Commits 100%, Contexte 89%, Composite 96%
Latence : 11s sur GPU T4 (quantifié en 4 bits) contre 3s pour Haiku
Taux d'échec contradictoire : 2% sur 96 questions ciblées

Boucle d'amélioration autonome

Le système exécute désormais un cycle automatisé : détecteur_d_échec → auto_red_team → paires DPO → réentraînement → redéploiement → évaluation. Les paires de version 5 s'accumulent. Le modèle affiné est disponible sous forme de fichier GGUF prêt pour Ollama.

À qui cela s'adresse

Les développeurs créant des agents de raisonnement spécifiques au domaine qui souhaitent passer des API payantes à l'utilisation à un modèle local affiné sans annotation humaine coûteuse.

📖 Lire la source complète : r/LocalLLaMA

Affinage de Qwen2.5-7B à 96% de Claude Haiku avec 3$ et zéro annotateurs humains

Comment fonctionne DV-DPO

Résultats

Boucle d'amélioration autonome

À qui cela s'adresse

👀 See Also

Anthropic lance Claude Code Channels pour la messagerie depuis Telegram ou Discord

Titre : Les Mac pour LLM local et OpenClaw : le goulot d'étranglement du traitement des prompts rend le cloud moins cher

Claude Skills vs MCP : une question pratique de frontière pour les développeurs

DeepSeek v4 Flash sur Mac Studio : un LLM local détecte de vrais bugs dans le code du compilateur