Claude Code Wahrheitsprüfung: 62/100 Punkte

Architektur der Wahrheitsprüfungs-Fähigkeit

Ein Forscher mit einem Hintergrund in Schlafforschung von der University of Miami entwickelte eine Claude Code-Fähigkeit namens /veracity-tweaked-555, die Dokumente in atomare Behauptungen zerlegt und jede einzelne über Websuche verifiziert. Das Werkzeug nutzt 16 parallele Agenten über 4 Wellen pro Durchlauf und wurde in Zusammenarbeit mit Claude Code (Opus 4.6) entwickelt, wobei Claude den Code entwarf und der Forscher die Methodik gestaltete.

Selbstprüfungsergebnisse und Fehlermuster

Als der Forscher den Wahrheitsprüfer auf seine eigene SKILL.md-Dokumentation anwandte, erzielte er 62 von 100 Punkten. Die Fähigkeit, die Halluzinationen erkennen sollte, hatte in ihrer eigenen Dokumentation Fakten halluziniert, darunter:

Erfindung einer Leistungsstatistik ("3x genauer" für SAFE, was das Papier nie behauptet)
Übertreibung einer Verbesserungsbehauptung eines Papiers ("+35,5%" waren tatsächlich +5,5% gegenüber dem Stand der Technik)
Erfindung einer Akronym-Erweiterung für eine echte Technik

Nach ersten Korrekturen erreichte die Punktzahl 80, dann 84 nach einem dritten Durchlauf. Eine Woche später stabilisierte sie sich nach einem rigoroseren Konvergenzprozess mit 6 Durchläufen, 19 Agenten und 35 zusätzlichen Korrekturen bei 96,5/100. Die v3-Prüfung fiel jedoch auf 74, weil v1-Korrekturen neue Fehler eingeführt hatten (eine unterschätzte Token-Kostenangabe und eine unvollständige Werkzeugliste).

Die Fehler folgen konsistenten Mustern: Attributionsübertreibung (etwas stärkere Formulierungen als die Quelle rechtfertigt), plausibel wirkende, aber erfundene Identifikatoren (PMIDs, arXiv-IDs, die echt aussehen, aber auf andere Papiere verweisen) und veraltete Statistiken, die als aktuell dargestellt werden.

Herausforderung des Kontext-Engineerings

Ein einzelner Prüfdurchlauf erzeugt etwa 917K Token über 16 Agenten hinweg und überschreitet damit Claude Codes 200K-Kontextfenster. Wenn Claude Code Konversationen komprimiert, um innerhalb der Grenzen zu bleiben, führt dies zu verlustbehafteter Komprimierung. Nach einigen Komprimierungen verliert der Agent den Überblick darüber, wie Befunde miteinander zusammenhängen – welche Korrektur welchen Rückschritt verursacht hat, welche Behauptung welcher anderen widerspricht. Einzelfakten (Namen, Zahlen, Funktionssignaturen) überleben besser als die Verbindungen zwischen ihnen.

Claudes Diagnose war, dass Beziehungsinformationen – Kausalketten, Querverweise, mehrstufige Abhängigkeiten – in einer Zusammenfassung schwerer zu erhalten sind als isolierte Fakten.

Lösung und zusätzliche Fähigkeitsprüfungen

Der Forscher löste dies, indem er eine Begleitfähigkeit namens /context-engineer entwickelte, die Überläufe vorhersagt und relationale Zustände in JSON-Dateien auf der Festplatte externalisiert. Der Entwurfstest: Wenn Sie Ihre gesamte Konversation /clear können und allein aus der Zustandsdatei fortfahren können, ist die Architektur korrekt.

Wahrheitsprüfungen bei anderen Claude Code-Fähigkeiten ergaben:

Eine Fähigkeit hatte einen erfundenen Papiertitel in ihrem Attributionsabschnitt – die Zitation sah perfekt aus (Autoren, Veranstaltungsort), aber der Titel war erfunden und das Jahr falsch
Dieselbe Fähigkeit schrieb ein Prüfungsframework dem falschen Normungsgremium zu, was an mehreren Stellen auftrat
Die /context-engineer-Fähigkeit hatte interne Widersprüche – der Text sagte "5-10K Token", während eine Tabelle für dieselbe Metrik "5-15K Token" angab

Insgesamt waren 12 Korrekturen über alle Fähigkeiten hinweg nötig. Alle bestanden nach Korrekturen mit 95+ Punkten in 3 aufeinanderfolgenden Durchläufen.

📖 Read the full source: r/ClaudeAI

Forscher entwickelt Wahrheitsprüfungs-Funktion für Claude Code, findet Hallucinationen in eigener Dokumentation

Architektur der Wahrheitsprüfungs-Fähigkeit

Selbstprüfungsergebnisse und Fehlermuster

Herausforderung des Kontext-Engineerings

Lösung und zusätzliche Fähigkeitsprüfungen

👀 Siehe auch

Steelman R5: Feinabgestimmtes 14B-Modell übertrifft Claude Opus bei der Ada-Codegenerierung

Omnicoder-9B-Leistungsbewertung: Geschwindigkeit vs. Probleme beim Tool-Aufruf

Mehr-Agenten-Debatten-App entwickelt mit Claude, ElevenLabs und Flux

Meisterung der Antropic-Abonnement-Modi: Haiku, Sonett und Opus