Anthropics Multi-Agent-Harness-Design zur Verbesserung der Codequalität von Claude

✍️ OpenClawRadar📅 Veröffentlicht: 29. März 2026🔗 Source

Anthropic hat einen Blogbeitrag veröffentlicht, der einen Harness-Design-Ansatz zur Verbesserung von Claudes Leistung bei langlaufenden Programmieraufgaben skizziert. Die Methode behandelt zwei spezifische Probleme: Kontextangst (Verlust der Kohärenz über längere Zeiträume) und Selbstbewertungsverzerrung (Claude lobt seine eigene Arbeit, auch wenn die Qualität schlecht ist).

Multi-Agenten-Lösung

Die Lösung setzt mehrere zusammenarbeitende Agenten um, inspiriert von GANs (Generative Adversarial Networks). Die Kernstruktur umfasst:

Generator: Erstellt Code und Design
Evaluator: Bietet kritische Bewertung und Feedback

Frontend-Implementierung

Für die Frontend-Entwicklung verwendet das Harness 4 Bewertungskriterien, die Ästhetik und Kreativität betonen, um generische Designs zu vermeiden. Der Prozess umfasst 5-15 Überarbeitungen, was zu schöneren und einzigartigeren Ergebnissen führt.

Full-Stack-Implementierung

Für die Full-Stack-Entwicklung setzt das Harness 3 Agenten ein:

Planer
Generator
Evaluator

Leistungsvergleich

Der Artikel vergleicht Ergebnisse für dieselben Spielentwicklungsanforderungen:

Allein laufen: Schnelle Ausführung, aber das Spiel hat schwerwiegende Fehler
Mit Harness: Zeitaufwändiger und teurer, aber produziert deutlich höherwertige Ergebnisse, einschließlich schöner Oberfläche, spielbarem Spiel und hinzugefügter KI-Unterstützung

Der Artikel schlägt vor, dass, wenn Modelle leistungsfähiger werden (speziell Opus 4.6 erwähnt), unnötige Harness-Elemente entfernt werden sollten.

📖 Read the full source: r/ClaudeAI

👀 Siehe auch

Werkzeuge

Dirac: Open-Source-Agent erreicht mit 65,2 % Platz 1 bei TerminalBench, günstiger und offen

Dirac, ein Open-Source-Coding-Agent, erreichte auf dem TerminalBench 2.0 für gemini-3-flash-preview einen Wert von 65,2 % und übertraf damit Googles Basislinie (47,6 %) sowie den führenden Closed-Source-Agenten Junie CLI (64,3 %). Zudem senkt er die API-Kosten um 64,8 % im Vergleich zu Mitbewerbern.

27. Apr. 2026, 14:16 UTC

OpenClawRadar

Werkzeuge

Merlin: Lokaler LLM-Kontext-Dedup – misst bis zu 71% Chunk-Überlappung, kostenlos & Open-Core

Merlin ist ein lokales Deduplizierungswerkzeug für LLM-Kontextfenster, das bei 22 Millionen Passagen aus echten Agenten- und RAG-Sitzungen eine Überlappung von 22-71% gemessen hat. Es wird als HTTP-Proxy (Ollama/vLLM/SGLang/llama.cpp), MCP-Server (Claude/Cursor/OpenClaw) oder eigenständiges CLI ausgeliefert. MIT-Open-Core mit täglichen Nutzungsbeschränkungen.

13. Mai 2026, 22:16 UTC

OpenClawRadar

Werkzeuge

Open-Source GTM-Plugin für Claude Code mit 166 Marketing-Skills und Bootstrap-Befehl

Ein Entwickler hat ein Open-Source-Go-To-Market-Plugin für Claude Code veröffentlicht, das 166 spezialisierte Marketing-Fähigkeiten in den Bereichen SEO, Content, Outbound, Sales, Growth, Analytics, Strategie, Ads, Social, CRM und KI-Suche bietet. Das Plugin enthält einen /bootstrap-Befehl, der Nutzer zu ihrer Marke befragt, um personalisierte Kontextdateien zu generieren.

17. Apr. 2026, 12:45 UTC

OpenClawRadar

Werkzeuge

Argus: Eine GitHub-App, die CLAUDE.md-Dateien überprüft und Bewertungen in PRs veröffentlicht

Argus ist eine GitHub-App, die mit Claude Code entwickelt wurde und CLAUDE.md-Dateien überprüft und bei jedem Pull Request eine Bewertung veröffentlicht. Nach Tests an mehreren Repositories sind die häufigsten Fehler fehlende explizite Grenzen des Anwendungsbereichs und Eskalationspfade.

18. Apr. 2026, 22:45 UTC

OpenClawRadar