Auto-ajustement supervisé : Qwen 2.5 7B atteint 80% HumanEval

Un développeur sur r/LocalLLaMA a mis en œuvre une boucle d'entraînement auto-supervisée où un petit modèle de langage génère ses propres problèmes de codage, tente des solutions, et s'affine sur les paires où l'interpréteur confirme l'exactitude. L'idée clé de l'article DeepSeek-R1 — que les modèles peuvent s'améliorer grâce à des récompenses vérifiables — a été appliquée sans données étiquetées par l'homme.

Méthode

Le modèle de base (commençant avec Qwen 2.5 7B) a été invité à inventer un problème de codage et quelques petits tests. Il a ensuite résolu le même problème plusieurs fois. L'interpréteur Python a agi comme seul juge : les paires (tentative erronée, tentative correcte) ont été sauvegardées. L'affinage a été effectué sur ces corrections auto-extraites. Aucun code écrit par un humain n'a été utilisé dans l'entraînement.

Résultats

Qwen 2.5 7B base : 25 → 112 sur HumanEval (+87 problèmes) après avoir corrigé un bogue du correcteur qui tronquait les sorties de fonctions.
Qwen 2.5 14B : A extrait 100 paires, entraîné en 95 minutes sur un H100 (3,50 $ de crédits). A obtenu un score à 4 points de la version RLHF de la même entreprise.
Llama 3.2 3B : 32 paires → 39 → 43 sur HumanEval. Confirme la transposition entre architectures.
Qwen 2.5 Coder 7B : Déjà spécialisé en code, mais s'est encore amélioré : HumanEval 83 → 87, MBPP 122 → 124.
Qwen 3 4B : HumanEval 79 → 106 (+27), MBPP 135 → 148.

Expérience de contrôle

Pour vérifier que le signal ne provenait pas d'un entraînement générique, l'auteur a construit de fausses paires avec du code aléatoire et défectueux qui ne réussissait aucun test. L'entraînement sur celles-ci n'a produit aucune amélioration (25/164, identique à la base). L'amélioration provient spécifiquement de l'apprentissage sur les erreurs et corrections auto-générées.

Détails pratiques

La première tentative a échoué car le correcteur s'arrêtait tôt, coupant les sorties du modèle en deux. La correction du correcteur a été cruciale. L'ensemble de la configuration a fonctionné sur un MacBook 24 Go et un compte RunPod. Le code et les scripts d'entraînement sont probablement partagés dans le post Reddit.

À qui s'adresse cette méthode

Développeurs et chercheurs travaillant avec de petits modèles de langage qui souhaitent amorcer le raisonnement en code sans annotations humaines.

📖 Read the full source: r/LocalLLaMA

Auto-ajustement supervisé sur ses propres erreurs booste les petits modèles à 80% sur HumanEval

Méthode

Résultats

Expérience de contrôle

Détails pratiques

À qui s'adresse cette méthode

👀 See Also

Delve est accusé d'avoir forké SimStudio, le logiciel open-source de Sim.ai, et de le vendre sous le nom de Pathways.

La pandémie du « Je ne sais pas, c’est Claude qui l’a écrit » : quand l’abandon cognitif remplace la propriété du code

Anthropic sépare l'utilisation programmatique des abonnements Claude : un nouveau pool de crédits arrive le 15 juin

Snowflake licencie son personnel chargé de la documentation après avoir formé un remplacement par IA