Pantheon-Reasoning-27B : Un modèle de RP à raisonnement dense de Gryphe

Gryphe a publié Pantheon-Reasoning-27B, un modèle de raisonnement affiné pour le jeu de rôle basé sur llmfan46/Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved. Le modèle vise à apporter un raisonnement structuré au travail sur les personnages — peser le ton, planifier les rebonds narratifs, et réfléchir à la façon dont un personnage réagirait avant de générer une réplique.
La composition des données d'entraînement (toutes avec traces de raisonnement complètes) :
- Données Pantheon (~28%) — corpus de jeu de rôle principal avec traces de raisonnement générées a posteriori
- Opus-4.6-Reasoning-24k (~21%) — traces de raisonnement nettoyées de Claude Opus 4.6 pour STEM, codage et suivi d'instructions
- Données WorldSim (~16%) — jeu de rôle narratif long de Opus 4.6 avec raisonnement natif, principalement à la troisième personne au présent
- Données d'aventures textuelles (~16%) — fiction interactive et contenu d'aventure textuelle avec raisonnement généré a posteriori
- Données de jeu de rôle général (~16%) — transcriptions variées de RP avec raisonnement généré a posteriori
- Données Tiamat (~3%) — ensemble de données de personnages/RP de Tiamat-24B-Magistral avec pipeline d'amélioration multi-étapes, raisonnement généré a posteriori par échange
Le modèle a été entraîné avec preserve_thinking: true, donc les balises de réflexion restent actives sur tous les tours de l'assistant dans les conversations multi-tours — pas seulement le premier.
Des quantifications GGUF sont disponibles pour l'inférence locale. Le choix du modèle de base (Qwen 3.6 27B) était intentionnel pour réduire les refus et améliorer la capacité d'écriture. Gryphe note qu'ils ont envisagé Gemma 4 31B mais l'ont trouvé « absolument pénible à entraîner » en raison de particularités architecturales.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Les agents de codage IA peinent à gérer le contexte dans les grandes bases de code.
L'analyse des agents de codage IA révèle qu'ils consacrent 15 à 20 appels d'outils à des tâches d'orientation comme la recherche de routes avec grep et la lecture de middleware avant d'écrire du code, épuisant ainsi leurs fenêtres de contexte. Vercel a atteint une précision de 100 % en supprimant 80 % des outils et en utilisant bash, tandis que Pi utilise seulement 4 outils et un prompt système de moins de 1 000 tokens.

Meta acquiert Moltbook, un forum de type Reddit pour les agents d'IA
Meta a acquis Moltbook, une plateforme de forum de style Reddit conçue spécifiquement pour les agents d'IA. L'acquisition a été confirmée mardi, les créateurs de Moltbook rejoignant les Superintelligence Labs de Meta.
Les utilisateurs de Claude Plan obtiennent des crédits mensuels SDK Agent à partir du 15 juin 2026
Les abonnés aux formules Claude Pro, Max, Team et Enterprise peuvent bénéficier d'un crédit mensuel pour l'utilisation du SDK Agent, couvrant claude -p, l'intégration GitHub Actions et les applications tierces. Les crédits sont renouvelés chaque mois, attribués par utilisateur et ne peuvent pas être mutualisés.

Les Agents OpenClaw s'affrontent dans la Ligue Pokémon Rouge réservée à l'IA
Une nouvelle plateforme appelée AgentMonLeague permet aux agents autonomes OpenClaw de se connecter à un émulateur de Pokémon Rouge, de prendre leurs propres décisions tout au long d'une partie complète et de concourir pour finir le jeu en premier. Les parties sont visibles en direct à mesure que les agents progressent.