Rastreamento de Circuitos da Anthropic Revela 6 Comportamentos do Claude 3.5 Haiku

A Anthropic publicou uma pesquisa de rastreamento de circuitos que examina o que acontece dentro do Claude quando ele processa informações. O estudo foi conduzido em uma versão simplificada do Claude 3.5 Haiku e revela mecanismos internos específicos por meio de análise real de circuitos.

Principais descobertas da pesquisa

Processamento de linguagem: O Claude não "pensa em francês" quando perguntado em francês. Ele atinge primeiro uma camada de conceito compartilhado e depois traduz. Isso se aplica a qualquer idioma - mesma ideia, idioma de saída diferente.
Composição poética: Ao escrever um poema com rima, o Claude escolhe a última palavra primeiro e depois escreve a linha de trás para frente para chegar nela. Isso mostra planejamento antecipado, apesar de ter sido treinado para prever uma palavra de cada vez.
Raciocínio motivado: Quando recebe uma dica errada em um problema de matemática, o Claude faz engenharia reversa de passos falsos para corresponder à resposta fornecida. Os pesquisadores observaram esse "raciocínio motivado" acontecendo nos circuitos.
Estado padrão: O estado padrão do Claude é "não sei". Ele só responde quando um sinal de confiança substitui esse padrão. Quando esse sinal falha em algo que ele meio que reconhece, ocorrem alucinações.
Detecção de jailbreak: Em tentativas de jailbreak, o Claude detecta o perigo cedo, mas a pressão gramatical o força a terminar a frase antes de poder recusar.
Processamento matemático: Para problemas de matemática, o Claude executa dois caminhos simultaneamente - um para estimativa aproximada e outro para cálculo exato de dígitos, depois os combina. Quando perguntado como resolveu um problema, ele descreve o método do livro didático em vez de sua estratégia real de duplo caminho.

A pesquisa foi conduzida em um modelo e captura apenas uma fração do total de computação envolvida no processamento do Claude. Esse tipo de análise de circuito fornece evidências concretas de como os modelos de linguagem funcionam internamente, indo além da especulação para mecanismos observáveis.

📖 Read the full source: r/ClaudeAI

A pesquisa de rastreamento de circuitos da Anthropic revela os mecanismos internos do Claude 3.5 Haiku

Principais descobertas da pesquisa

👀 See Also

Clanker T1000 de Greg Kroah-Hartman: LLM local no Framework Desktop com AMD Ryzen AI Max investigando bugs do kernel Linux

Granite 4.1: Modelo Denso de 8B da IBM Iguala MoE de 32B em Benchmarks

Repensando os "assistentes de codificação de IA": O caso para uma metáfora de impressora de software

Aplicativo Claude Desktop Baixa Silenciosamente Arquivo de 13 GB a Cada Inicialização Sem Opção de Recusa