SkillOpt : Compétences Markdown comme Paramètres Entraînables

SkillOpt est un nouveau cadre d'optimisation qui traite les fichiers de compétences markdown comme des paramètres entraînables, en appliquant une véritable mécanique d'optimisation à l'édition ad hoc de compétences que de nombreux développeurs d'agents pratiquent déjà. L'article (arxiv.org/pdf/2605.23904) formalise un processus : un modèle de pointe propose des modifications limitées (ajout/suppression/remplacement) aux fichiers de compétences markdown, et chaque modification est validée par un ensemble de validation réservé. Seules les améliorations strictes sont acceptées ; les égalités sont rejetées, et les modifications rejetées deviennent un signal négatif pour les tours suivants.

Résultats Clés

Convergence : Les meilleures compétences convergent avec 1 à 4 modifications acceptées parmi de nombreuses propositions. Un budget de 4 à 8 modifications par étape fonctionne le mieux ; supprimer le plafond entraîne un effondrement des performances.
Taille des compétences : La compétence finale médiane fait environ 920 tokens.
Transfert de modèle : Une compétence optimisée sur Codex transférée à Claude Code sans modification a gagné +59,7 sur SpreadsheetBench. GPT 4.1 Nano avec une compétence optimisée a approximativement égalé les modèles de pointe sur des benchmarks procéduraux.

Limitations

La validation nécessite un auto-correcteur avec des réponses correctes claires. Cela fonctionne pour le code et les feuilles de calcul, mais échoue pour tout ce qui est ouvert.

À Qui Cela S'Adresse

Développeurs construisant des agents de codage IA qui souhaitent optimiser systématiquement les fichiers de compétences plutôt que de se fier à l'itération manuelle ou à l'ingénierie de prompts ad hoc.

📖 Lire la source complète : r/LocalLLaMA

SkillOpt : Optimisation des fichiers de compétences Markdown en tant que paramètres entraînables pour les agents IA

Résultats Clés

Limitations

À Qui Cela S'Adresse

👀 See Also

RCFlow : Orchestrateur open-source pour Claude Code, Codex et OpenCode avec gestion multi-session

Protocole Mind : Un système open-source offre à Claude une mémoire persistante et une intégration biométrique en temps réel.

Vellium ajoute des animaux de bureau et des agents inspirés de la CLI pour les LLM locaux

Présentation de Roam-Code CLI : Une alternative plus rapide et déterministe pour l'exploration de code.