Qwen3 27B vs Gemma 4 26B : appel d'outils IA local

Ce week-end, All About AI a publié une présentation détaillée d'un pipeline d'automatisation vidéo 100 % local de style Fireship. La conclusion principale : la fiabilité de l'appel d'outils diverge nettement entre les deux modèles testés.

Appel d'outils : Qwen3 27B vs Gemma 4 26B

Gemma 4 26B entrait à plusieurs reprises dans des boucles d'appel d'outils, gaspillant des jetons en raisonnement inutile. Qwen3 (plus précisément Qwen 3.6 27B ?) gérait la même orchestration proprement, sans perte de jetons de réflexion. L'écart entre les chiffres de performance synthétique et ceux réels des workflows d'agents est significatif : les boucles d'appel d'outils consomment à la fois du temps et de la mémoire GPU.

Si vous utilisez une pile d'appel d'outils (OpenClaw, Aider ou une boucle personnalisée), le choix du modèle est plus important que ne le suggèrent les benchmarks synthétiques. L'auteur demande explicitement des taux d'échec pour l'appel d'outils de Qwen3 par rapport à DeepSeek V4 sur des piles spécifiques.

Génération d'images : Said Image Turbo

Pour les images, le pipeline utilisait Said Image Turbo de Hugging Face - poids ouverts, pas de frais d'API. Cela fonctionne bien pour les cartes de type meme, mais pour les portraits, il vaut mieux utiliser Flux ou Seedream à la place.

Orchestration : OpenCode à 174K de contexte

L'ensemble du pipeline était orchestré avec OpenCode. La fenêtre de contexte a atteint 174K jetons, et la liste de tâches n'était pas complètement achevée en un seul passage. L'opérateur s'est éloigné en cours d'exécution et est revenu à un résultat partiel - une représentation honnête de l'état actuel des outils d'IA autonomes.

Exécution à distance

Si vous ne pouvez pas exécuter un modèle 27B localement, Qwen3 est disponible sur plusieurs fournisseurs d'inférence, vous donnant les mêmes poids et le même comportement d'appel d'outils sans l'investissement GPU initial.

📖 Lire la source complète : r/LocalLLaMA