Sprachgesteuerter Claude Code: Multi-Agent-System auf dem Mac

Ein Entwickler auf r/ClaudeAI baute als Wochenendprojekt eine Sprachsteuerung für Claude Code auf macOS, komplett mit Wake-Word, WebRTC-Sprachschleife und einem Multi-Agent-Orchestrierungssystem. Was als praktischer Hack begann, entwickelte sich zu einem System, bei dem ein Leiter-Agent Aufgaben zerlegt, Unter-Agents rekrutiert und diese parallel mit automatisch ausgelösten Qualitätssicherungsschleifen ausführt.

Wie es funktioniert

Wake-Wort: „Yabby“ löst die Sprachschleife aus. Der Entwickler wählte ein benutzerdefiniertes Wake-Wort, um Konflikte mit Siri oder anderen Assistenten zu vermeiden.
Sprachschleife: WebRTC übernimmt die Echtzeit-Audio-Streaming. Das System nutzt die Anthropic Realtime API für Sprache-zu-Text und Text-zu-Sprache; die angestrebte Latenz liegt unter 300 ms, aber die API verursacht manchmal Verzögerungen.
Leiter-Agent: Erhält die Sprachanfrage, führt eine Entdeckungsphase durch, erstellt einen Projektplan und rekrutiert ein kleines Team (Manager + 2-3 Unter-Agents) zur Ausführung der Schritte.
Parallele Ausführung: Unter-Agents laufen wo möglich parallel, sonst sequenziell. Jeder Agent erhält eine eigene Claude Code CLI-Sitzung mit einem separaten Thread – die Gespräche vermischen sich nicht.
Automatische Qualitätssicherung: Wenn ein Unter-Agent fertig ist, wird eine Überprüfung mit einer 5-Sekunden-Entprellung ausgelöst, um Staus zu vermeiden. Während der Tests fing ein Agent einen Fehler eines anderen Agents – ein emergentes Verhalten, das der Entwickler nicht erwartet hatte.
Planbestätigungs-Modal: Bevor ein Agent ausführt, erscheint ein Modal, damit der Benutzer den Plan prüfen kann. So wird verhindert, dass das System unverifizierte Aktionen ausführt.

Schwachstellen

Sprecherverifizierung: Nutzt Kosinus-Ähnlichkeit auf Sprecher-Embeddings. Der Schwellwert ist schwer einzustellen – zu streng lehnt den Benutzer ab, wenn er erkältet ist; zu lasch erlaubt jedem im Raum, Befehle auszulösen.
Gebietsschema-Probleme: Französisch war das Standard-Gebietsschema, weil der Code so geschrieben war. Der Entwickler bessert es langsam aus.
Lebenszyklus von Hintergrundaufgaben: Wenn der übergeordnete Claude Code CLI-Prozess beendet wird, sterben Hintergrundaufgaben still. Der Entwickler schrieb einen OS-weiten PID-Watcher mit einem Buchhalter-Shellskript, um zu verfolgen, welche langlebigen Server abgestürzt sind.
Überplanung: Der Leiter-Agent erstellt manchmal einen vierphasigen Projektplan für triviale Anfragen wie das Umbenennen einer Datei.

Offene Fragen

Der Entwickler überlegt noch, wie er die Ausführlichkeit in der Qualitätssicherungsphase reduzieren kann, ob Unter-Agents eigene Unter-Agents rekrutieren dürfen (rekursive Delegation) und wie die Sprachlatenz unter 300 ms bleibt, wenn die Realtime API zickt. Er ist auch neugierig, wie der offizielle Sprachmodus von Anthropic (ausgerollt an 5 % der Nutzer) die Multi-Agent-Koordination handhabt.

📖 Vollständige Quelle lesen: r/ClaudeAI

Aufbau eines sprachgesteuerten Multi-Agenten-Systems auf Basis von Claude Code

Wie es funktioniert

Schwachstellen

Offene Fragen

👀 Siehe auch

Druckbare Claude-Code-Cheat-Sheet mit wöchentlichen automatischen Updates

OpenTidy: Open-Source Hintergrund-Assistent mit Claude Code für Verwaltungsaufgaben

Agent Image Skills: Einfache Bildhosting für Claude Code Agents

Kostenloses MCP ermöglicht Claude die automatische Analyse von Google Search Console-Daten