Anthropics Harness vs. Agyns: Multi-Agenten-KI-Systeme im Vergleich

Anthropic hat ein Harness-Design für die Entwicklung lang laufender Anwendungen veröffentlicht, während das Agyn Multi-Agenten-System für team-basierte autonome Softwareentwicklung letzten Monat auf arXiv als Open Source veröffentlicht wurde. Beide Ansätze lehnen das "monolithische Agenten"-Modell ab und strukturieren KI-Agenten stattdessen so, dass sie wie echte Engineering-Teams mit Rollentrennung, strukturierten Übergaben und Review-Schleifen arbeiten.

Kernarchitektur-Unterschiede

Anthropics System verwendet eine GAN-inspirierte Architektur mit drei Rollen: Planer → Generator → Evaluator. Der Evaluator verwendet Playwright, um mit der laufenden Anwendung wie ein echter Benutzer zu interagieren, und liefert dann strukturierte Kritik zurück an den Generator.

Agyn modelliert den Prozess als eine Engineering-Organisation mit vier Rollen: Koordination → Forschung → Implementierung → Review. Agenten arbeiten in isolierten Sandboxes und kommunizieren über definierte Verträge.

Gemeinsame Lösungen für häufige Probleme

Modelle verlieren Kohärenz bei langen Aufgaben: Anthropic verwendet Kontext-Reset mit strukturierten Übergabe-Artefakten, während Agyn Komprimierung mit strukturierten Übergaben zwischen Rollen einsetzt
Selbstevaluation ist zu nachsichtig: Beide Systeme trennen Evaluation von Generierung. Anthropic verwendet einen separaten Evaluator-Agenten, der auf Few-Shot-Beispiele kalibriert ist, während Agyn eine dedizierte Review-Rolle hat, die von der Implementierung getrennt ist
Unklare "Fertig"-Kriterien: Anthropic verwendet Sprint-Verträge, die vor Arbeitsbeginn ausgehandelt werden, während Agyn eine Aufgaben-Spezifikationsphase mit expliziten Akzeptanzkriterien und erforderlichen Tests hat
Komplexe Aufgabenzerlegung: Anthropics Planer erweitert Ein-Satz-Prompts zu vollständigen Spezifikationen, während Agyns Forschungsagent Probleme zerlegt und Spezifikationen erstellt, bevor die Implementierung beginnt
Kontext-Angst: Anthropic verwendet Resets für saubere Ausgangspunkte, während Agyn Komprimierung mit einer Speicherschicht einsetzt

Agyns Besondere Merkmale

Agyn enthält zwei Merkmale, die in Anthropics Harness nicht vorhanden sind:

Isolierte Sandboxes pro Agent: Jeder Agent arbeitet in seinem eigenen isolierten Datei- und Netzwerk-Namensraum, was Kollisionen bei gemeinsamem Zustand während paralleler oder sequentieller Arbeit verhindert
GitHub als gemeinsamer Zustand: Das System verwendet GitHub-Primitive (Commits, Kommentare, PRs, Reviews), die menschliche Teams bereits verstehen, und bietet ein vollständiges Audit-Protokoll ohne benutzerdefinierte Kommunikationsprotokolle

Implementierungsunterschiede

Anthropics Harness ist eng um Claude herum aufgebaut und verwendet das Claude Agent SDK und Playwright MCP für die Evaluationsschleife. Der Evaluator navigiert durch live laufende Anwendungen, bevor er bewertet.

Agyn ist von Design her modellagnostisch und unterstützt Claude, Codex und Open-Weight-Modelle. Das System ermöglicht das Mischen verschiedener Modelle pro Rolle, was in der Praxis besser abschneidet als die Verwendung eines einzigen Modells für alles.

📖 Read the full source: r/ClaudeAI

Vergleich von Multi-Agenten-KI-Systemen: Anthropics Harness vs. Agyns Engineering Org Model

Kernarchitektur-Unterschiede

Gemeinsame Lösungen für häufige Probleme

Agyns Besondere Merkmale

Implementierungsunterschiede

👀 Siehe auch

Echte Einblicke in die Verwendung von OpenClaw mit LLMs: Herausforderungen und Einschränkungen

Claude Code v2.1.144: Hintergrundsitzungen, /model-Scoping und 15-Sekunden-Startzeitüberschreitung

ScreenMind: Lokale KI-Erinnerung, die Ihre gesamte Computeraktivität indexiert

7 Slash-Befehle, 0,45 $/Beitrag: Diese Claude Code-Pipeline betreibt eine komplette SEO-Content-Operation