Forscher entwickelt Wahrheitsprüfungs-Funktion für Claude Code, findet Hallucinationen in eigener Dokumentation

✍️ OpenClawRadar📅 Veröffentlicht: 20. April 2026🔗 Source
Ad

Architektur der Wahrheitsprüfungs-Fähigkeit

Ein Forscher mit einem Hintergrund in Schlafforschung von der University of Miami entwickelte eine Claude Code-Fähigkeit namens /veracity-tweaked-555, die Dokumente in atomare Behauptungen zerlegt und jede einzelne über Websuche verifiziert. Das Werkzeug nutzt 16 parallele Agenten über 4 Wellen pro Durchlauf und wurde in Zusammenarbeit mit Claude Code (Opus 4.6) entwickelt, wobei Claude den Code entwarf und der Forscher die Methodik gestaltete.

Selbstprüfungsergebnisse und Fehlermuster

Als der Forscher den Wahrheitsprüfer auf seine eigene SKILL.md-Dokumentation anwandte, erzielte er 62 von 100 Punkten. Die Fähigkeit, die Halluzinationen erkennen sollte, hatte in ihrer eigenen Dokumentation Fakten halluziniert, darunter:

  • Erfindung einer Leistungsstatistik ("3x genauer" für SAFE, was das Papier nie behauptet)
  • Übertreibung einer Verbesserungsbehauptung eines Papiers ("+35,5%" waren tatsächlich +5,5% gegenüber dem Stand der Technik)
  • Erfindung einer Akronym-Erweiterung für eine echte Technik

Nach ersten Korrekturen erreichte die Punktzahl 80, dann 84 nach einem dritten Durchlauf. Eine Woche später stabilisierte sie sich nach einem rigoroseren Konvergenzprozess mit 6 Durchläufen, 19 Agenten und 35 zusätzlichen Korrekturen bei 96,5/100. Die v3-Prüfung fiel jedoch auf 74, weil v1-Korrekturen neue Fehler eingeführt hatten (eine unterschätzte Token-Kostenangabe und eine unvollständige Werkzeugliste).

Die Fehler folgen konsistenten Mustern: Attributionsübertreibung (etwas stärkere Formulierungen als die Quelle rechtfertigt), plausibel wirkende, aber erfundene Identifikatoren (PMIDs, arXiv-IDs, die echt aussehen, aber auf andere Papiere verweisen) und veraltete Statistiken, die als aktuell dargestellt werden.

Ad

Herausforderung des Kontext-Engineerings

Ein einzelner Prüfdurchlauf erzeugt etwa 917K Token über 16 Agenten hinweg und überschreitet damit Claude Codes 200K-Kontextfenster. Wenn Claude Code Konversationen komprimiert, um innerhalb der Grenzen zu bleiben, führt dies zu verlustbehafteter Komprimierung. Nach einigen Komprimierungen verliert der Agent den Überblick darüber, wie Befunde miteinander zusammenhängen – welche Korrektur welchen Rückschritt verursacht hat, welche Behauptung welcher anderen widerspricht. Einzelfakten (Namen, Zahlen, Funktionssignaturen) überleben besser als die Verbindungen zwischen ihnen.

Claudes Diagnose war, dass Beziehungsinformationen – Kausalketten, Querverweise, mehrstufige Abhängigkeiten – in einer Zusammenfassung schwerer zu erhalten sind als isolierte Fakten.

Lösung und zusätzliche Fähigkeitsprüfungen

Der Forscher löste dies, indem er eine Begleitfähigkeit namens /context-engineer entwickelte, die Überläufe vorhersagt und relationale Zustände in JSON-Dateien auf der Festplatte externalisiert. Der Entwurfstest: Wenn Sie Ihre gesamte Konversation /clear können und allein aus der Zustandsdatei fortfahren können, ist die Architektur korrekt.

Wahrheitsprüfungen bei anderen Claude Code-Fähigkeiten ergaben:

  • Eine Fähigkeit hatte einen erfundenen Papiertitel in ihrem Attributionsabschnitt – die Zitation sah perfekt aus (Autoren, Veranstaltungsort), aber der Titel war erfunden und das Jahr falsch
  • Dieselbe Fähigkeit schrieb ein Prüfungsframework dem falschen Normungsgremium zu, was an mehreren Stellen auftrat
  • Die /context-engineer-Fähigkeit hatte interne Widersprüche – der Text sagte "5-10K Token", während eine Tabelle für dieselbe Metrik "5-15K Token" angab

Insgesamt waren 12 Korrekturen über alle Fähigkeiten hinweg nötig. Alle bestanden nach Korrekturen mit 95+ Punkten in 3 aufeinanderfolgenden Durchläufen.

📖 Read the full source: r/ClaudeAI

Ad

👀 Siehe auch

Maßgeschneiderte KI v0.8.1: VS Code-Autovervollständigungserweiterung für Code und Text
Werkzeuge

Maßgeschneiderte KI v0.8.1: VS Code-Autovervollständigungserweiterung für Code und Text

Bespoke AI v0.8.1 ist eine VS Code-Erweiterung, die Autovervollständigung sowohl für Code als auch für Text bietet. Sie nutzt Claude Code-Abonnements über Anthropics Agent SDK, um API-Gebühren zu vermeiden, und unterstützt mehrere Backends einschließlich Ollama.

OpenClawRadar
PocketTeam: Eine Claude-Code-Pipeline mit Haken-basierter Sicherheit und lernenden Agenten
Werkzeuge

PocketTeam: Eine Claude-Code-Pipeline mit Haken-basierter Sicherheit und lernenden Agenten

PocketTeam ist eine Claude Code-Pipeline, die 9 Sicherheitsebenen auf Tool-Call-Ebene implementiert, um gefährliche Operationen wie Schreibvorgänge in .env oder rm -rf-Befehle zu blockieren. Das System umfasst einen Observer-Agenten, der abgeschlossene Aufgaben analysiert und strukturierte Erkenntnisse schreibt, um die zukünftige Leistung der Agenten zu verbessern.

OpenClawRadar
TranscriptionSuite v1.1.2 fügt WhisperX-, NeMo- und VibeVoice-Modelle hinzu.
Werkzeuge

TranscriptionSuite v1.1.2 fügt WhisperX-, NeMo- und VibeVoice-Modelle hinzu.

TranscriptionSuite v1.1.2 bietet nun drei Transkriptions-Pipelines: WhisperX mit PyAnnote-Diarisierung, NeMo-Modelle (Parakeet & Canary) mit PyAnnote-Diarisierung und VibeVoice-Modelle mit integrierter Diarisierung. Das Update umfasst einen Modell-Manager, parallele Verarbeitung, Tastenkürzel-Steuerungen und eine 24kHz-Aufnahmepipeline für VibeVoice.

OpenClawRadar
Qwen3.6-27B SVG-Erzeugung mit geschlossenem Regelkreis
Werkzeuge

Qwen3.6-27B SVG-Erzeugung mit geschlossenem Regelkreis

Ein geschlossener Regelkreis, der Agno- und Pi-Agenten verwendet, verbessert iterativ SVG-Ausgaben von Qwen3.6-27B, indem er rendert, PNGs an Qwen Vision zurückführt und Ergebnisse in zwei Runden bewertet.

OpenClawRadar