Qwen3.5 35B-A3B MoE führt 27-stufige agentenbasierte Workflows lokal auf Mittelklasse-Hardware aus

✍️ OpenClawRadar📅 Veröffentlicht: 25. März 2026🔗 Source
Qwen3.5 35B-A3B MoE führt 27-stufige agentenbasierte Workflows lokal auf Mittelklasse-Hardware aus
Ad

Demonstration eines lokalen agentenbasierten Workflows

Ein Entwickler auf r/LocalLLaMA berichtete über die erfolgreiche lokale Ausführung eines komplexen agentenbasierten Workflows mit Qwen3.5 35B-A3B MoE. Das Modell führte eine 27-stufige Videoverarbeitungskette autonom auf Mittelklasse-Hardware aus.

Workflow-Details

Die Aufgabe umfasste die Verarbeitung eines Videos anhand einer einzigen natürlichen Sprachaufforderung:

  • Ein Video hochladen
  • Mit Whisper transkribieren
  • Die Untertitel bearbeiten
  • Untertitel mit individuellem Stil zurück in das Video einbrennen

Der Workflow bestand aus 27 sequenziellen Tool-Aufrufen, darunter: extract_audio, transcribe, read_file, edit_file, burn_subtitles sowie Verifizierungsschritte. Das Modell plante, führte aus, überprüfte jeden Schritt und korrigierte sich bei Bedarf selbst.

Ad

Technische Spezifikationen

Hardware:

  • Lenovo ThinkPad P53 Mobile Workstation
  • Intel i7-9850H Prozessor
  • Quadro RTX 3000 (6GB VRAM)
  • 48GB DDR4 2666MT/s RAM

Software-Stack:

  • Vollständige lokale Implementierung mit llama.cpp + whisper.cpp
  • Keine Cloud-APIs verwendet

Modellkonfiguration:

  • Qwen3.5 35B-A3B MoE mit Q4_K_M-Quantisierung
  • MoE-Architektur mit ~3B aktiven Parametern pro Token
  • Passt und läuft auf 6GB VRAM mit ausgelagerten Layern
  • Vollständige 35B-Parameter-Wissensbasis

Leistungsergebnisse

Der vollständige Workflow lief in etwa 10 Minuten, wobei die meiste Zeit für Inferenz aufgewendet wurde. Der Entwickler stellte null Fehler und null menschliches Eingreifen während der 27-stufigen Kette fest. Die MoE-Architektur machte dies auf Mittelklasse-Hardware möglich, indem die Anzahl aktiver Parameter niedrig gehalten wurde, während die volle Modellfähigkeit erhalten blieb.

Dies zeigt, dass lokale agentenbasierte Workflows auf Consumer-Hardware praktikabel werden, insbesondere mit MoE-Modellen, die die Anzahl aktiver Parameter für Geschwindigkeit gegen die volle Parameteranzahl für Fähigkeiten abwägen.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch