Qwen3.5 35B-A3B MoE : Flux agentique 27 étapes sur PC milieu de gamme

Démonstration d'un flux de travail agentique local

Un développeur sur r/LocalLLaMA a rapporté avoir exécuté avec succès un flux de travail agentique complexe localement en utilisant Qwen3.5 35B-A3B MoE. Le modèle a exécuté une chaîne de traitement vidéo en 27 étapes de manière autonome sur du matériel de gamme moyenne.

Détails du flux de travail

La tâche impliquait le traitement d'une vidéo à partir d'une seule instruction en langage naturel :

Télécharger une vidéo
Transcrire avec Whisper
Modifier les sous-titres
Intégrer les sous-titres dans la vidéo avec un style personnalisé

Le flux de travail comprenait 27 appels d'outils séquentiels incluant : extract_audio, transcribe, read_file, edit_file, burn_subtitles, ainsi que des étapes de vérification. Le modèle a planifié, exécuté, vérifié chaque étape et s'est auto-corrigé lorsque nécessaire.

Spécifications techniques

Matériel :

Station de travail mobile Lenovo ThinkPad P53
Processeur Intel i7-9850H
Quadro RTX 3000 (6 Go de VRAM)
48 Go de RAM DDR4 2666 MT/s

Pile logicielle :

Implémentation entièrement locale avec llama.cpp + whisper.cpp
Aucune API cloud utilisée

Configuration du modèle :

Qwen3.5 35B-A3B MoE en quantification Q4_K_M
Architecture MoE avec ~3 milliards de paramètres actifs par token
Tient et fonctionne sur 6 Go de VRAM avec des couches déchargées
Base de connaissances complète de 35 milliards de paramètres

Résultats de performance

Le flux de travail complet s'est exécuté en environ 10 minutes, la plupart du temps étant consacré à l'inférence. Le développeur a noté zéro erreur et zéro intervention humaine requise pendant la chaîne de 27 étapes. L'architecture MoE a rendu cela réalisable sur du matériel de gamme moyenne en maintenant un faible nombre de paramètres actifs tout en conservant les capacités complètes du modèle.

Cela démontre que les flux de travail agentiques locaux deviennent pratiques sur du matériel grand public, en particulier avec les modèles MoE qui équilibrent le nombre de paramètres actifs pour la vitesse contre le nombre total de paramètres pour les capacités.

📖 Read the full source: r/LocalLLaMA

Qwen3.5 35B-A3B MoE exécute un flux de travail agentique en 27 étapes localement sur du matériel de milieu de gamme

Démonstration d'un flux de travail agentique local

Détails du flux de travail

Spécifications techniques

Résultats de performance

👀 See Also

Système Exécutif IA de Mise : Cadre de Gouvernance et Résultats de Notation des Agents

Freelance non-technique utilise MaxClaw et MiniMax Agent pour élargir ses services.

Non-développeur crée un tableau de bord MLB en direct avec Claude AI et Claude Code sur GitHub Codespaces

Construire un système d'information personnalisé contextuel avec Claude Code