Claude 3.5 Haiku Schaltkreisverfolgung: 6 Verhaltensweisen entdeckt

Anthropic veröffentlichte Forschung zur Schaltkreisverfolgung, die untersucht, was in Claude passiert, wenn er Informationen verarbeitet. Die Studie wurde an einer vereinfachten Version von Claude 3.5 Haiku durchgeführt und deckt spezifische interne Mechanismen durch tatsächliche Schaltkreisananalyse auf.

Wichtige Erkenntnisse aus der Forschung

Sprachverarbeitung: Claude "denkt nicht auf Französisch", wenn er auf Französisch gefragt wird. Er erreicht zuerst eine gemeinsame Konzeptebene und übersetzt dann. Dies gilt für jede Sprache – dieselbe Idee, andere Ausgabesprache.
Gedichtkomposition: Beim Verfassen eines reimenden Gedichts wählt Claude zuerst das letzte Wort und schreibt dann die Zeile rückwärts, um darauf zu landen. Dies zeigt vorausschauende Planung, obwohl er darauf trainiert wurde, ein Wort nach dem anderen vorherzusagen.
Motiviertes Denken: Wenn Claude einen falschen Hinweis zu einem Matheproblem erhält, rekonstruiert er gefälschte Schritte, um die gegebene Antwort zu erreichen. Forscher beobachteten dieses "motivierte Denken" in den Schaltkreisen.
Standardzustand: Claudes Standardzustand ist "Ich weiß es nicht." Er antwortet nur, wenn ein Vertrauenssignal diesen Standardzustand überschreibt. Wenn dieses Signal bei etwas, das er halb erkennt, fehlschlägt, treten Halluzinationen auf.
Jailbreak-Erkennung: Bei Jailbreak-Versuchen erkennt Claude die Gefahr früh, aber grammatikalischer Druck zwingt ihn, den Satz zu beenden, bevor er ablehnen kann.
Mathematikverarbeitung: Bei Matheproblemen läuft Claude zwei Pfade gleichzeitig – einen für grobe Schätzung und einen für exakte Ziffernberechnung, die er dann kombiniert. Wenn er gefragt wird, wie er ein Problem gelöst hat, beschreibt er die Lehrbuchmethode statt seiner tatsächlichen Dual-Pfad-Strategie.

Die Forschung wurde an einem Modell durchgeführt und erfasst nur einen Bruchteil der gesamten Berechnung, die an Claudes Verarbeitung beteiligt ist. Diese Art der Schaltkreisananalyse liefert konkrete Beweise dafür, wie Sprachmodelle intern funktionieren, und geht über Spekulation hinaus zu beobachtbaren Mechanismen.

📖 Read the full source: r/ClaudeAI

Die Schaltkreis-Nachverfolgungsforschung von Anthropic enthüllt die internen Mechanismen von Claude 3.5 Haiku

Wichtige Erkenntnisse aus der Forschung

👀 Siehe auch

Claude bietet zusätzliches Nutzungsguthaben für Pro-, Max- und Team-Tarife an.

CBPs Clearview-AI-Deal: Gesichtserkennung für taktische Zielverfolgung

Taalas' HC1: Beschleunigung der KI-Inferenz mit maßgeschneidertem Silizium

KI schrieb eine PHP-Engine in Rust, besteht 17 % der PHP-src-Tests, rendert WordPress