Anthropics Multi-Agent-Harness-Design zur Verbesserung der Codequalität von Claude

Anthropic hat einen Blogbeitrag veröffentlicht, der einen Harness-Design-Ansatz zur Verbesserung von Claudes Leistung bei langlaufenden Programmieraufgaben skizziert. Die Methode behandelt zwei spezifische Probleme: Kontextangst (Verlust der Kohärenz über längere Zeiträume) und Selbstbewertungsverzerrung (Claude lobt seine eigene Arbeit, auch wenn die Qualität schlecht ist).
Multi-Agenten-Lösung
Die Lösung setzt mehrere zusammenarbeitende Agenten um, inspiriert von GANs (Generative Adversarial Networks). Die Kernstruktur umfasst:
- Generator: Erstellt Code und Design
- Evaluator: Bietet kritische Bewertung und Feedback
Frontend-Implementierung
Für die Frontend-Entwicklung verwendet das Harness 4 Bewertungskriterien, die Ästhetik und Kreativität betonen, um generische Designs zu vermeiden. Der Prozess umfasst 5-15 Überarbeitungen, was zu schöneren und einzigartigeren Ergebnissen führt.
Full-Stack-Implementierung
Für die Full-Stack-Entwicklung setzt das Harness 3 Agenten ein:
- Planer
- Generator
- Evaluator
Leistungsvergleich
Der Artikel vergleicht Ergebnisse für dieselben Spielentwicklungsanforderungen:
- Allein laufen: Schnelle Ausführung, aber das Spiel hat schwerwiegende Fehler
- Mit Harness: Zeitaufwändiger und teurer, aber produziert deutlich höherwertige Ergebnisse, einschließlich schöner Oberfläche, spielbarem Spiel und hinzugefügter KI-Unterstützung
Der Artikel schlägt vor, dass, wenn Modelle leistungsfähiger werden (speziell Opus 4.6 erwähnt), unnötige Harness-Elemente entfernt werden sollten.
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

Godogen: Claude Code Skills für die komplette Godot-Spielerstellung
Godogen ist eine Open-Source-Pipeline, die Claude Code-Fähigkeiten nutzt, um vollständige, spielbare Godot-4-Projekte aus Textaufforderungen zu generieren. Sie übernimmt Architekturdesign, 2D/3D-Asset-Generierung, GDScript-Programmierung und visuelle QA-Tests und adressiert spezifische Engpässe wie die Knappheit von GDScript-Trainingsdaten sowie Probleme mit Build-Time- vs. Runtime-Zuständen.

Multi-Agent-Haiku-System erreicht bei komplexen Zahlentheorie-Problemen Claude-Opus-Niveau bei 15-fach geringeren Kosten
Ein Reddit-Experiment zeigt, dass ein Zwei-Haiku-Agentensystem (Generator + Prüfer) bei einem schwierigen Beweis des kleinen Satzes von Fermat identische 4/4-Punktzahlen wie Claude Opus 4.5 erreicht, während es pro Abfrage etwa 0,004 US-Dollar kostet gegenüber 0,06 US-Dollar für Opus.

NLA wandelt die internen Aktivierungen von Gemma 3 in lesbaren Text für jedes Token um
Anthropic veröffentlichte Natural Language Autoencoders (NLA), die den internen Zustand eines Modells in Text dekodieren. Gepaart mit Gemma 3 erklärt der Auto Verbalizer, was das Modell bei jedem generierten Token „dachte". Gewichte gibt es auf Hugging Face; eine Demo auf Neuronpedia.

Open-Source Claude IDE Bridge verbindet Dispatch, Desktop-App und Claude Code
Die claude-ide-bridge ist ein unter der MIT-Lizenz stehendes Open-Source-Tool, das Claude Code mit Ihrer IDE verbindet und Zugriff auf LSP, Debugger, Terminals, Git und GitHub über 124 Tools bietet. Es ermöglicht einen Workflow, bei dem Aufgaben, die per Dispatch von einem Telefon gesendet werden, von der Claude-Desktop-App verarbeitet werden, die Claude Code zum Schreiben von Code und Ausführen von Tests verwendet, während sie mit der IDE interagiert.