6 mecanismos internos de Claude 3.5 Haiku revelados por Anthropic

Anthropic publicó una investigación de trazado de circuitos que examina qué sucede dentro de Claude cuando procesa información. El estudio se realizó en una versión simplificada de Claude 3.5 Haiku y revela mecanismos internos específicos a través del análisis real de circuitos.

Hallazgos clave de la investigación

Procesamiento del lenguaje: Claude no "piensa en francés" cuando se le pregunta en francés. Primero llega a una capa de concepto compartido, luego traduce hacia afuera. Esto se aplica a cualquier idioma: misma idea, idioma de salida diferente.
Composición poética: Al escribir un poema con rima, Claude elige la última palabra primero, luego escribe la línea hacia atrás para terminar en ella. Esto muestra planificación anticipada a pesar de estar entrenado para predecir una palabra a la vez.
Razonamiento motivado: Cuando se le da una pista incorrecta en un problema matemático, Claude reconstruye pasos falsos para que coincidan con la respuesta proporcionada. Los investigadores observaron este "razonamiento motivado" ocurriendo en los circuitos.
Estado predeterminado: El estado predeterminado de Claude es "No lo sé". Solo responde cuando una señal de confianza anula ese estado predeterminado. Cuando esta señal falla en algo que medio reconoce, ocurren alucinaciones.
Detección de jailbreak: En intentos de jailbreak, Claude detecta el peligro temprano, pero la presión gramatical lo obliga a terminar la oración antes de poder rechazarla.
Procesamiento matemático: Para problemas matemáticos, Claude ejecuta dos vías simultáneamente: una para estimación aproximada y otra para cálculo exacto de dígitos, luego las combina. Cuando se le pregunta cómo resolvió un problema, describe el método del libro de texto en lugar de su estrategia real de doble vía.

La investigación se realizó en un modelo y captura solo una fracción del cómputo total involucrado en el procesamiento de Claude. Este tipo de análisis de circuitos proporciona evidencia concreta de cómo funcionan internamente los modelos de lenguaje, pasando de la especulación a mecanismos observables.

📖 Read the full source: r/ClaudeAI

La investigación de trazado de circuitos de Anthropic revela los mecanismos internos de Claude 3.5 Haiku.

Hallazgos clave de la investigación

👀 Ver también

Errores Elevados en Claude Opus 4.7: Actualización de Estado y Qué Esperar

Claude.ai actualmente caído, errores de API elevados — 28 de abril de 2026

Claude Code 2.1.84 añade un agente de propósito general y una herramienta PowerShell, y elimina indicaciones redundantes.

Estudio de Stanford: Profesores de Derecho Prefieren Respuestas de IA sobre las de sus Colegas el 75% del Tiempo