Anthropics Multi-Agent-Harness-Design zur Verbesserung der Codequalität von Claude

✍️ OpenClawRadar📅 Veröffentlicht: 29. März 2026🔗 Source
Anthropics Multi-Agent-Harness-Design zur Verbesserung der Codequalität von Claude
Ad

Anthropic hat einen Blogbeitrag veröffentlicht, der einen Harness-Design-Ansatz zur Verbesserung von Claudes Leistung bei langlaufenden Programmieraufgaben skizziert. Die Methode behandelt zwei spezifische Probleme: Kontextangst (Verlust der Kohärenz über längere Zeiträume) und Selbstbewertungsverzerrung (Claude lobt seine eigene Arbeit, auch wenn die Qualität schlecht ist).

Multi-Agenten-Lösung

Die Lösung setzt mehrere zusammenarbeitende Agenten um, inspiriert von GANs (Generative Adversarial Networks). Die Kernstruktur umfasst:

  • Generator: Erstellt Code und Design
  • Evaluator: Bietet kritische Bewertung und Feedback

Frontend-Implementierung

Für die Frontend-Entwicklung verwendet das Harness 4 Bewertungskriterien, die Ästhetik und Kreativität betonen, um generische Designs zu vermeiden. Der Prozess umfasst 5-15 Überarbeitungen, was zu schöneren und einzigartigeren Ergebnissen führt.

Ad

Full-Stack-Implementierung

Für die Full-Stack-Entwicklung setzt das Harness 3 Agenten ein:

  • Planer
  • Generator
  • Evaluator

Leistungsvergleich

Der Artikel vergleicht Ergebnisse für dieselben Spielentwicklungsanforderungen:

  • Allein laufen: Schnelle Ausführung, aber das Spiel hat schwerwiegende Fehler
  • Mit Harness: Zeitaufwändiger und teurer, aber produziert deutlich höherwertige Ergebnisse, einschließlich schöner Oberfläche, spielbarem Spiel und hinzugefügter KI-Unterstützung

Der Artikel schlägt vor, dass, wenn Modelle leistungsfähiger werden (speziell Opus 4.6 erwähnt), unnötige Harness-Elemente entfernt werden sollten.

📖 Read the full source: r/ClaudeAI

Ad

👀 Siehe auch

Godogen: Claude Code Skills für die komplette Godot-Spielerstellung
Werkzeuge

Godogen: Claude Code Skills für die komplette Godot-Spielerstellung

Godogen ist eine Open-Source-Pipeline, die Claude Code-Fähigkeiten nutzt, um vollständige, spielbare Godot-4-Projekte aus Textaufforderungen zu generieren. Sie übernimmt Architekturdesign, 2D/3D-Asset-Generierung, GDScript-Programmierung und visuelle QA-Tests und adressiert spezifische Engpässe wie die Knappheit von GDScript-Trainingsdaten sowie Probleme mit Build-Time- vs. Runtime-Zuständen.

OpenClawRadar
Multi-Agent-Haiku-System erreicht bei komplexen Zahlentheorie-Problemen Claude-Opus-Niveau bei 15-fach geringeren Kosten
Werkzeuge

Multi-Agent-Haiku-System erreicht bei komplexen Zahlentheorie-Problemen Claude-Opus-Niveau bei 15-fach geringeren Kosten

Ein Reddit-Experiment zeigt, dass ein Zwei-Haiku-Agentensystem (Generator + Prüfer) bei einem schwierigen Beweis des kleinen Satzes von Fermat identische 4/4-Punktzahlen wie Claude Opus 4.5 erreicht, während es pro Abfrage etwa 0,004 US-Dollar kostet gegenüber 0,06 US-Dollar für Opus.

OpenClawRadar
NLA wandelt die internen Aktivierungen von Gemma 3 in lesbaren Text für jedes Token um
Werkzeuge

NLA wandelt die internen Aktivierungen von Gemma 3 in lesbaren Text für jedes Token um

Anthropic veröffentlichte Natural Language Autoencoders (NLA), die den internen Zustand eines Modells in Text dekodieren. Gepaart mit Gemma 3 erklärt der Auto Verbalizer, was das Modell bei jedem generierten Token „dachte". Gewichte gibt es auf Hugging Face; eine Demo auf Neuronpedia.

OpenClawRadar
Open-Source Claude IDE Bridge verbindet Dispatch, Desktop-App und Claude Code
Werkzeuge

Open-Source Claude IDE Bridge verbindet Dispatch, Desktop-App und Claude Code

Die claude-ide-bridge ist ein unter der MIT-Lizenz stehendes Open-Source-Tool, das Claude Code mit Ihrer IDE verbindet und Zugriff auf LSP, Debugger, Terminals, Git und GitHub über 124 Tools bietet. Es ermöglicht einen Workflow, bei dem Aufgaben, die per Dispatch von einem Telefon gesendet werden, von der Claude-Desktop-App verarbeitet werden, die Claude Code zum Schreiben von Code und Ausführen von Tests verwendet, während sie mit der IDE interagiert.

OpenClawRadar