Qwen3.5 35B-A3B MoE führt 27-stufige agentenbasierte Workflows lokal auf Mittelklasse-Hardware aus

Demonstration eines lokalen agentenbasierten Workflows
Ein Entwickler auf r/LocalLLaMA berichtete über die erfolgreiche lokale Ausführung eines komplexen agentenbasierten Workflows mit Qwen3.5 35B-A3B MoE. Das Modell führte eine 27-stufige Videoverarbeitungskette autonom auf Mittelklasse-Hardware aus.
Workflow-Details
Die Aufgabe umfasste die Verarbeitung eines Videos anhand einer einzigen natürlichen Sprachaufforderung:
- Ein Video hochladen
- Mit Whisper transkribieren
- Die Untertitel bearbeiten
- Untertitel mit individuellem Stil zurück in das Video einbrennen
Der Workflow bestand aus 27 sequenziellen Tool-Aufrufen, darunter: extract_audio, transcribe, read_file, edit_file, burn_subtitles sowie Verifizierungsschritte. Das Modell plante, führte aus, überprüfte jeden Schritt und korrigierte sich bei Bedarf selbst.
Technische Spezifikationen
Hardware:
- Lenovo ThinkPad P53 Mobile Workstation
- Intel i7-9850H Prozessor
- Quadro RTX 3000 (6GB VRAM)
- 48GB DDR4 2666MT/s RAM
Software-Stack:
- Vollständige lokale Implementierung mit llama.cpp + whisper.cpp
- Keine Cloud-APIs verwendet
Modellkonfiguration:
- Qwen3.5 35B-A3B MoE mit Q4_K_M-Quantisierung
- MoE-Architektur mit ~3B aktiven Parametern pro Token
- Passt und läuft auf 6GB VRAM mit ausgelagerten Layern
- Vollständige 35B-Parameter-Wissensbasis
Leistungsergebnisse
Der vollständige Workflow lief in etwa 10 Minuten, wobei die meiste Zeit für Inferenz aufgewendet wurde. Der Entwickler stellte null Fehler und null menschliches Eingreifen während der 27-stufigen Kette fest. Die MoE-Architektur machte dies auf Mittelklasse-Hardware möglich, indem die Anzahl aktiver Parameter niedrig gehalten wurde, während die volle Modellfähigkeit erhalten blieb.
Dies zeigt, dass lokale agentenbasierte Workflows auf Consumer-Hardware praktikabel werden, insbesondere mit MoE-Modellen, die die Anzahl aktiver Parameter für Geschwindigkeit gegen die volle Parameteranzahl für Fähigkeiten abwägen.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Postmortem: Governance-System für KI-Codierungsprojekte mit Claude
Ein Entwickler teilte eine Nachbetrachtung eines 2-wöchigen Claude-Code-Projekts, das 23.000 Codezeilen und 2.629 Tests für etwa 100 US-Dollar produzierte, und betonte, dass das Governance-System wichtiger war als die Prompts. Das Framework ist Open Source.

Verwenden von Codex CLI, um die Installation von OpenClaw auf macOS zu automatisieren
Ein Entwickler nutzte den Planmodus von Codex CLI, um OpenClaw auf einem Mac mini zu installieren, das Gateway zu konfigurieren, GPT-5.4 als primären Agenten festzulegen und Abhängigkeiten ohne manuelle Terminalbefehle zu handhaben.

Modifiziertes vLLM 0.17.0 läuft auf Tesla P40 für Echtzeit-Transkription mit Qwen3 ASR 1.7B
Ein Entwickler hat vLLM 0.17.0 für die Pascal-Architektur von Tesla P40 GPUs angepasst und damit nahezu vollständige Hardwarebeschleunigung für die Echtzeit-Transkription von Vorlesungen mit dem Qwen3 ASR 1.7B Modell erreicht. Der Fork ist auf GitHub verfügbar.

Erstellen einer generativen Malbuch-App mit Claude als Senior-Entwickler
Ein iOS-Entwickler auf mittlerem Niveau beschreibt, wie Claude half, Randfälle zu erkennen und Sicherheitsvorkehrungen zu implementieren, während eine SwiftUI-Malbuch-App für Kinder entwickelt wurde.