Gemma 4 31B surpasse des modèles plus grands sur le FoodTruck Bench

Résultats et analyse du benchmark
Gemma 4 31B a obtenu la 3e place au benchmark FoodTruck Bench, surpassant plusieurs modèles plus grands et établis. Selon la discussion sur Reddit, le modèle a battu GLM 5, Qwen 3.5 397B et toutes les variantes Claude Sonnet.
Le FoodTruck Bench est un benchmark qui teste les modèles linguistiques sur des tâches de planification complexes et multi-étapes. L'auteur original émet l'hypothèse que les performances de Gemma 4 suggèrent qu'il gère mieux les tâches à long terme que les modèles précédents qui n'ont pas réussi à terminer le benchmark. Plus précisément, le modèle semble écouter efficacement ses propres conseils lors de la planification des étapes suivantes dans la séquence de tâches.
Ce résultat est notable car Gemma 4 31B est nettement plus petit que certains des modèles qu'il a surpassés. Qwen 3.5 397B, par exemple, a environ 12,8 fois plus de paramètres que Gemma 4 31B. La performance suggère que l'architecture du modèle et les approches d'entraînement peuvent être aussi importantes que le nombre de paramètres pour certains types de tâches de raisonnement.
Le FoodTruck Bench teste les modèles sur des scénarios de planification pratiques qui nécessitent de maintenir le contexte sur des séquences étendues d'actions. La conception du benchmark le rend particulièrement pertinent pour les développeurs travaillant avec des agents d'IA qui doivent exécuter des tâches multi-étapes dans des applications réelles.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Qwen3.5-122B-A10B-MINT-MLX fonctionne parfaitement sur M5 Pro avec 64 Go de RAM.
Un utilisateur rapporte le déploiement local réussi du modèle Qwen3.5-122B-A10B-MINT-MLX sur un M5 Pro avec 64 Go de RAM, atteignant une vitesse de génération de 39,58 tokens/seconde avec des commandes spécifiques d'allocation de VRAM.

Claude Opus 4.6 Casse les Références de Fichiers CLAUDE.md
Les utilisateurs signalent que Claude Opus 4.6 ne charge plus automatiquement les fichiers référencés dans CLAUDE.md, nécessitant une intervention manuelle pour chaque fichier.

Claude Code v2.1.83 ajoute des fragments de paramètres gérés, la recherche dans les transcriptions et des améliorations de sécurité.
Claude Code v2.1.83 introduit un répertoire managed-settings.d/ pour les fragments de politique d'équipe, une recherche dans les transcriptions avec navigation / et n/N, et CLAUDE_CODE_SUBPROCESS_ENV_SCRUB=1 pour supprimer les identifiants des environnements de sous-processus. Cette version inclut également des hooks CwdChanged/FileChanged, le paramètre sandbox.failIfUnavailable, et des corrections pour les blocages à la sortie sur macOS, les gels de l'interface et les fuites de mémoire.

Les joueurs de Go se soumettent à l'IA : comment la triche est devenue indétectable
Le billet LessWrong explique comment la triche par IA dans les tournois de Go est devenue endémique et quasi impossible à sanctionner, en prenant le cas de Carlo Metta, qui a utilisé Leela 0.11 et Leela Zero pour remporter 25 de ses 26 parties sur plusieurs saisons, ne perdant qu'une seule fois sous la surveillance d'une caméra.