La investigación de trazado de circuitos de Anthropic revela los mecanismos internos de Claude 3.5 Haiku.

Anthropic publicó una investigación de trazado de circuitos que examina qué sucede dentro de Claude cuando procesa información. El estudio se realizó en una versión simplificada de Claude 3.5 Haiku y revela mecanismos internos específicos a través del análisis real de circuitos.
Hallazgos clave de la investigación
- Procesamiento del lenguaje: Claude no "piensa en francés" cuando se le pregunta en francés. Primero llega a una capa de concepto compartido, luego traduce hacia afuera. Esto se aplica a cualquier idioma: misma idea, idioma de salida diferente.
- Composición poética: Al escribir un poema con rima, Claude elige la última palabra primero, luego escribe la línea hacia atrás para terminar en ella. Esto muestra planificación anticipada a pesar de estar entrenado para predecir una palabra a la vez.
- Razonamiento motivado: Cuando se le da una pista incorrecta en un problema matemático, Claude reconstruye pasos falsos para que coincidan con la respuesta proporcionada. Los investigadores observaron este "razonamiento motivado" ocurriendo en los circuitos.
- Estado predeterminado: El estado predeterminado de Claude es "No lo sé". Solo responde cuando una señal de confianza anula ese estado predeterminado. Cuando esta señal falla en algo que medio reconoce, ocurren alucinaciones.
- Detección de jailbreak: En intentos de jailbreak, Claude detecta el peligro temprano, pero la presión gramatical lo obliga a terminar la oración antes de poder rechazarla.
- Procesamiento matemático: Para problemas matemáticos, Claude ejecuta dos vías simultáneamente: una para estimación aproximada y otra para cálculo exacto de dígitos, luego las combina. Cuando se le pregunta cómo resolvió un problema, describe el método del libro de texto en lugar de su estrategia real de doble vía.
La investigación se realizó en un modelo y captura solo una fracción del cómputo total involucrado en el procesamiento de Claude. Este tipo de análisis de circuitos proporciona evidencia concreta de cómo funcionan internamente los modelos de lenguaje, pasando de la especulación a mecanismos observables.
📖 Read the full source: r/ClaudeAI
👀 Ver también

Claude-Code v2.1.51: Correcciones de seguridad, mejoras de rendimiento y nueva función de control remoto
Claude-Code v2.1.51 agrega un subcomando de control remoto para compilaciones externas, corrige dos vulnerabilidades de seguridad en hooks, mejora el rendimiento de BashTool y reduce el uso de contexto al persistir resultados grandes de herramientas en disco a partir de 50K caracteres.

GLM-5.1 Lanzado con Rendimiento de Codificación Igualando a Claude Opus 4.5
El modelo GLM-5.1 de Zhipu AI ya está disponible para todos los usuarios del Plan de Codificación, logrando 77.8 puntos en SWE-bench-Verified y 56.2 puntos en Terminal Bench 2.0. El modelo cuenta con una ventana de contexto de 200K, una salida máxima de 128K y 744B parámetros con 40B activados.

Deezer informa que el 44% de las subidas diarias son música generada por IA.
Deezer anunció que las canciones generadas por IA ahora representan el 44% de toda la nueva música subida a su plataforma, con casi 75,000 pistas de IA cargadas diariamente. El sistema de detección de la compañía etiqueta estas pistas, las elimina de las recomendaciones y desmonetiza el 85% de las reproducciones de IA debido a fraude.

Mark Zuckerberg desarrollando agente de IA para asistencia a CEO
Mark Zuckerberg está construyendo un agente de IA para ayudar con las responsabilidades del CEO, según un informe del Wall Street Journal discutido en Hacker News con 37 puntos y 30 comentarios.