Auto-ajustement supervisé sur ses propres erreurs booste les petits modèles à 80% sur HumanEval

✍️ OpenClawRadar📅 Publié: May 15, 2026🔗 Source
Auto-ajustement supervisé sur ses propres erreurs booste les petits modèles à 80% sur HumanEval
Ad

Un développeur sur r/LocalLLaMA a mis en œuvre une boucle d'entraînement auto-supervisée où un petit modèle de langage génère ses propres problèmes de codage, tente des solutions, et s'affine sur les paires où l'interpréteur confirme l'exactitude. L'idée clé de l'article DeepSeek-R1 — que les modèles peuvent s'améliorer grâce à des récompenses vérifiables — a été appliquée sans données étiquetées par l'homme.

Méthode

Le modèle de base (commençant avec Qwen 2.5 7B) a été invité à inventer un problème de codage et quelques petits tests. Il a ensuite résolu le même problème plusieurs fois. L'interpréteur Python a agi comme seul juge : les paires (tentative erronée, tentative correcte) ont été sauvegardées. L'affinage a été effectué sur ces corrections auto-extraites. Aucun code écrit par un humain n'a été utilisé dans l'entraînement.

Résultats

  • Qwen 2.5 7B base : 25 → 112 sur HumanEval (+87 problèmes) après avoir corrigé un bogue du correcteur qui tronquait les sorties de fonctions.
  • Qwen 2.5 14B : A extrait 100 paires, entraîné en 95 minutes sur un H100 (3,50 $ de crédits). A obtenu un score à 4 points de la version RLHF de la même entreprise.
  • Llama 3.2 3B : 32 paires → 39 → 43 sur HumanEval. Confirme la transposition entre architectures.
  • Qwen 2.5 Coder 7B : Déjà spécialisé en code, mais s'est encore amélioré : HumanEval 83 → 87, MBPP 122 → 124.
  • Qwen 3 4B : HumanEval 79 → 106 (+27), MBPP 135 → 148.
Ad

Expérience de contrôle

Pour vérifier que le signal ne provenait pas d'un entraînement générique, l'auteur a construit de fausses paires avec du code aléatoire et défectueux qui ne réussissait aucun test. L'entraînement sur celles-ci n'a produit aucune amélioration (25/164, identique à la base). L'amélioration provient spécifiquement de l'apprentissage sur les erreurs et corrections auto-générées.

Détails pratiques

La première tentative a échoué car le correcteur s'arrêtait tôt, coupant les sorties du modèle en deux. La correction du correcteur a été cruciale. L'ensemble de la configuration a fonctionné sur un MacBook 24 Go et un compte RunPod. Le code et les scripts d'entraînement sont probablement partagés dans le post Reddit.

À qui s'adresse cette méthode

Développeurs et chercheurs travaillant avec de petits modèles de langage qui souhaitent amorcer le raisonnement en code sans annotations humaines.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Qwen 3 8B surpasse des modèles plus volumineux lors d'évaluations en aveugle par les pairs sur des tâches difficiles.
News

Qwen 3 8B surpasse des modèles plus volumineux lors d'évaluations en aveugle par les pairs sur des tâches difficiles.

Lors d'une évaluation en aveugle par les pairs de 10 petits modèles de langage sur 13 tâches difficiles de niveau frontière, Qwen 3 8B a remporté 6 évaluations et s'est classé dans le top 3 dans 12 des 13 tâches, surpassant des modèles ayant jusqu'à 4 fois plus de paramètres. L'évaluation couvrait le débogage de verrous distribués, les bogues de concurrence en Go, l'optimisation SQL, le diagnostic médical bayésien, le paradoxe de Simpson, le théorème de vote d'Arrow et l'analyse du biais du survivant.

OpenClawRadar
Claude Code devient soudainement réticent au risque, exigeant une autorisation pour des tâches de routine
News

Claude Code devient soudainement réticent au risque, exigeant une autorisation pour des tâches de routine

Un utilisateur signale que Claude Code passe de manière intermittente d'une exécution autonome à une demande d'autorisations excessives, même sur des flux de travail quotidiens inchangés comme la reconstruction d'un monorepo et l'exécution de tests.

OpenClawRadar
Google fait don du Protocole de paiement d'agents (AP2) à l'Alliance FIDO et publie la v0.2 avec des paiements « Humain non présent »
News

Google fait don du Protocole de paiement d'agents (AP2) à l'Alliance FIDO et publie la v0.2 avec des paiements « Humain non présent »

Google fait don du protocole de paiement pour agents (AP2) à la FIDO Alliance et publie la version 0.2 avec le support des paiements autonomes « Humain non présent » et une nouvelle norme d'intention vérifiable co-développée avec Mastercard.

OpenClawRadar
Qwen 35B-A3B en tant qu'agent toujours actif sur Mac M4 de 16 Go : les E/S disque échouent avant la RAM
News

Qwen 35B-A3B en tant qu'agent toujours actif sur Mac M4 de 16 Go : les E/S disque échouent avant la RAM

L'exécution de Qwen 35B-A3B avec llama.cpp sur un Mac M4 16 Go fonctionne pour l'inférence par lots, mais une boucle agentique toujours active aux côtés de Claude Code et Codex CLI provoque une contention SSD qui entraîne une instabilité système et des tâches cron manquées, malgré une RAM suffisante.

OpenClawRadar