Qwen3.5 35B-A3B MoE exécute un flux de travail agentique en 27 étapes localement sur du matériel de milieu de gamme

Démonstration d'un flux de travail agentique local
Un développeur sur r/LocalLLaMA a rapporté avoir exécuté avec succès un flux de travail agentique complexe localement en utilisant Qwen3.5 35B-A3B MoE. Le modèle a exécuté une chaîne de traitement vidéo en 27 étapes de manière autonome sur du matériel de gamme moyenne.
Détails du flux de travail
La tâche impliquait le traitement d'une vidéo à partir d'une seule instruction en langage naturel :
- Télécharger une vidéo
- Transcrire avec Whisper
- Modifier les sous-titres
- Intégrer les sous-titres dans la vidéo avec un style personnalisé
Le flux de travail comprenait 27 appels d'outils séquentiels incluant : extract_audio, transcribe, read_file, edit_file, burn_subtitles, ainsi que des étapes de vérification. Le modèle a planifié, exécuté, vérifié chaque étape et s'est auto-corrigé lorsque nécessaire.
Spécifications techniques
Matériel :
- Station de travail mobile Lenovo ThinkPad P53
- Processeur Intel i7-9850H
- Quadro RTX 3000 (6 Go de VRAM)
- 48 Go de RAM DDR4 2666 MT/s
Pile logicielle :
- Implémentation entièrement locale avec llama.cpp + whisper.cpp
- Aucune API cloud utilisée
Configuration du modèle :
- Qwen3.5 35B-A3B MoE en quantification Q4_K_M
- Architecture MoE avec ~3 milliards de paramètres actifs par token
- Tient et fonctionne sur 6 Go de VRAM avec des couches déchargées
- Base de connaissances complète de 35 milliards de paramètres
Résultats de performance
Le flux de travail complet s'est exécuté en environ 10 minutes, la plupart du temps étant consacré à l'inférence. Le développeur a noté zéro erreur et zéro intervention humaine requise pendant la chaîne de 27 étapes. L'architecture MoE a rendu cela réalisable sur du matériel de gamme moyenne en maintenant un faible nombre de paramètres actifs tout en conservant les capacités complètes du modèle.
Cela démontre que les flux de travail agentiques locaux deviennent pratiques sur du matériel grand public, en particulier avec les modèles MoE qui équilibrent le nombre de paramètres actifs pour la vitesse contre le nombre total de paramètres pour les capacités.
📖 Read the full source: r/LocalLLaMA
👀 See Also

L'utilisateur d'OpenClaw automatise les paiements de stationnement en rétroconcevant le portail gouvernemental.
Un utilisateur d'OpenClaw a créé un script qui paie automatiquement le stationnement en rétro-ingéniérant un portail gouvernemental local, réduisant les coûts de 3 $ par transaction à zéro en s'exécutant localement sur un Mac mini.

Optimisation des Coûts de l'Agent OpenClaw grâce à l'Optimisation DOM et à la Surveillance via Tableau de Bord
Réduction des coûts des agents OpenClaw de 41 % grâce à une évaluation JavaScript personnalisée pour les lectures DOM, minimisant les appels API et l'inflation des tokens. Un tableau de bord en temps réel des tokens permet de suivre l'utilisation.

Agents IA Claude Simulateur de Construction, Optimiser l'Algorithme de Jeu pour Dépasser le Score Humain
Un développeur a testé des agents d'IA Claude sur le jeu de programmation The Farmer Was Replaced en leur faisant construire un simulateur Python du jeu, puis en développant itérativement un algorithme de récolte de tournesols. L'IA a atteint un temps de 5:21, battant le record personnel du développeur et atteignant le rang 30 du classement mondial.

Équipes d'IA Multi-Agents Utilisant le Baptême Contextuel pour Améliorer les Revues de Code
Un développeur exécutant 18 générations d'équipes d'agents IA a découvert que les agents qui lisent les lettres et rétrospectives des générations précédentes rédigent des revues de code nettement meilleures que ceux qui ne lisent que le code, qualifiant cette pratique de 'Baptême Contextuel'.