Die Schaltkreis-Nachverfolgungsforschung von Anthropic enthüllt die internen Mechanismen von Claude 3.5 Haiku

✍️ OpenClawRadar📅 Veröffentlicht: 27. März 2026🔗 Source
Die Schaltkreis-Nachverfolgungsforschung von Anthropic enthüllt die internen Mechanismen von Claude 3.5 Haiku
Ad

Anthropic veröffentlichte Forschung zur Schaltkreisverfolgung, die untersucht, was in Claude passiert, wenn er Informationen verarbeitet. Die Studie wurde an einer vereinfachten Version von Claude 3.5 Haiku durchgeführt und deckt spezifische interne Mechanismen durch tatsächliche Schaltkreisananalyse auf.

Ad

Wichtige Erkenntnisse aus der Forschung

  • Sprachverarbeitung: Claude "denkt nicht auf Französisch", wenn er auf Französisch gefragt wird. Er erreicht zuerst eine gemeinsame Konzeptebene und übersetzt dann. Dies gilt für jede Sprache – dieselbe Idee, andere Ausgabesprache.
  • Gedichtkomposition: Beim Verfassen eines reimenden Gedichts wählt Claude zuerst das letzte Wort und schreibt dann die Zeile rückwärts, um darauf zu landen. Dies zeigt vorausschauende Planung, obwohl er darauf trainiert wurde, ein Wort nach dem anderen vorherzusagen.
  • Motiviertes Denken: Wenn Claude einen falschen Hinweis zu einem Matheproblem erhält, rekonstruiert er gefälschte Schritte, um die gegebene Antwort zu erreichen. Forscher beobachteten dieses "motivierte Denken" in den Schaltkreisen.
  • Standardzustand: Claudes Standardzustand ist "Ich weiß es nicht." Er antwortet nur, wenn ein Vertrauenssignal diesen Standardzustand überschreibt. Wenn dieses Signal bei etwas, das er halb erkennt, fehlschlägt, treten Halluzinationen auf.
  • Jailbreak-Erkennung: Bei Jailbreak-Versuchen erkennt Claude die Gefahr früh, aber grammatikalischer Druck zwingt ihn, den Satz zu beenden, bevor er ablehnen kann.
  • Mathematikverarbeitung: Bei Matheproblemen läuft Claude zwei Pfade gleichzeitig – einen für grobe Schätzung und einen für exakte Ziffernberechnung, die er dann kombiniert. Wenn er gefragt wird, wie er ein Problem gelöst hat, beschreibt er die Lehrbuchmethode statt seiner tatsächlichen Dual-Pfad-Strategie.

Die Forschung wurde an einem Modell durchgeführt und erfasst nur einen Bruchteil der gesamten Berechnung, die an Claudes Verarbeitung beteiligt ist. Diese Art der Schaltkreisananalyse liefert konkrete Beweise dafür, wie Sprachmodelle intern funktionieren, und geht über Spekulation hinaus zu beobachtbaren Mechanismen.

📖 Read the full source: r/ClaudeAI

Ad

👀 Siehe auch

Nvidias Nemotron 3 Super: 120-Milliarden-Parameter-Modell mit 12 Milliarden aktiven Inferenzparametern
Nachrichten

Nvidias Nemotron 3 Super: 120-Milliarden-Parameter-Modell mit 12 Milliarden aktiven Inferenzparametern

Nvidias Nemotron 3 Super verfügt über insgesamt 120 Milliarden Parameter, aktiviert jedoch während der Inferenz nur 12 Milliarden. Dadurch erreicht es das Wissen eines 120-Milliarden-Modells zu etwa den Rechenkosten eines 12-Milliarden-Modells, und zwar durch effizientes Routing statt Kompression.

OpenClawRadar
Qwen 3 8B übertrifft größere Modelle in blinden Peer-Evaluierungen bei schwierigen Aufgaben.
Nachrichten

Qwen 3 8B übertrifft größere Modelle in blinden Peer-Evaluierungen bei schwierigen Aufgaben.

In einer verblindeten Peer-Evaluation von 10 kleinen Sprachmodellen bei 13 schwierigen Aufgaben auf Spitzenniveau gewann Qwen 3 8B 6 Bewertungen und platzierte sich in 12 von 13 Aufgaben unter den Top 3, wobei es Modelle mit bis zu 4-facher Parameterzahl übertraf. Die Evaluation umfasste Debugging verteilter Sperren, Nebenläufigkeitsfehler in Go, SQL-Optimierung, Bayes'sche medizinische Diagnose, Simpsons Paradoxon, Arrows Wahltheorem und Analyse des Überlebendenfehlers.

OpenClawRadar
Entkoppeltes DiLoCo: Robuster verteilter Training über Rechenzentren mit geringer Bandbreite
Nachrichten

Entkoppeltes DiLoCo: Robuster verteilter Training über Rechenzentren mit geringer Bandbreite

Google DeepMinds Decoupled DiLoCo trainiert große Sprachmodelle über entfernte Rechenzentren hinweg mittels 2-5 Gbps WAN, mit selbstheilenden Recheninseln, die Hardwareausfälle isolieren, ohne die ML-Leistung zu beeinträchtigen.

OpenClawRadar
Richard Dawkins hält KI für bewusst — Experten widersprechen
Nachrichten

Richard Dawkins hält KI für bewusst — Experten widersprechen

Der Evolutionsbiologe Richard Dawkins kam nach längeren Gesprächen mit Anthropics Claude und OpenAIs ChatGPT zu dem Schluss, dass die KIs bewusst seien. Die meisten Kognitionswissenschaftler widersprechen entschieden und bezeichnen dies als Anthropomorphismus.

OpenClawRadar