A pesquisa de rastreamento de circuitos da Anthropic revela os mecanismos internos do Claude 3.5 Haiku

A Anthropic publicou uma pesquisa de rastreamento de circuitos que examina o que acontece dentro do Claude quando ele processa informações. O estudo foi conduzido em uma versão simplificada do Claude 3.5 Haiku e revela mecanismos internos específicos por meio de análise real de circuitos.
Principais descobertas da pesquisa
- Processamento de linguagem: O Claude não "pensa em francês" quando perguntado em francês. Ele atinge primeiro uma camada de conceito compartilhado e depois traduz. Isso se aplica a qualquer idioma - mesma ideia, idioma de saída diferente.
- Composição poética: Ao escrever um poema com rima, o Claude escolhe a última palavra primeiro e depois escreve a linha de trás para frente para chegar nela. Isso mostra planejamento antecipado, apesar de ter sido treinado para prever uma palavra de cada vez.
- Raciocínio motivado: Quando recebe uma dica errada em um problema de matemática, o Claude faz engenharia reversa de passos falsos para corresponder à resposta fornecida. Os pesquisadores observaram esse "raciocínio motivado" acontecendo nos circuitos.
- Estado padrão: O estado padrão do Claude é "não sei". Ele só responde quando um sinal de confiança substitui esse padrão. Quando esse sinal falha em algo que ele meio que reconhece, ocorrem alucinações.
- Detecção de jailbreak: Em tentativas de jailbreak, o Claude detecta o perigo cedo, mas a pressão gramatical o força a terminar a frase antes de poder recusar.
- Processamento matemático: Para problemas de matemática, o Claude executa dois caminhos simultaneamente - um para estimativa aproximada e outro para cálculo exato de dígitos, depois os combina. Quando perguntado como resolveu um problema, ele descreve o método do livro didático em vez de sua estratégia real de duplo caminho.
A pesquisa foi conduzida em um modelo e captura apenas uma fração do total de computação envolvida no processamento do Claude. Esse tipo de análise de circuito fornece evidências concretas de como os modelos de linguagem funcionam internamente, indo além da especulação para mecanismos observáveis.
📖 Read the full source: r/ClaudeAI
👀 See Also

Lançamento do CC 2.1.128: Novo Agente de Fundo Integrado, Suporte Beta ao C# e Descontinuação de Modelos
CC 2.1.128 (+1406 tokens) adiciona instruções internas de agente em segundo plano, suporte beta ao executor de ferramentas C#/Agentes Gerenciados, descontinua Sonnet 4 e Opus 4 recomendando Opus 4.7/Sonnet 4.6 e remove modelos de memória de sessão.

Os modelos Bonsai 1-bit Qwen da PrismML testados: 107 t/s de geração em 8GB de VRAM
Os modelos Bonsai da PrismML são versões quantizadas de 1 bit do Qwen3 8B, 4B e 1.7B que alcançam 107 tokens/segundo na geração e >1114 t/s no processamento de prompts em uma RTX 4060 com 8GB de VRAM, com requisitos de memória significativamente reduzidos.

Relatórios de Usuários do Anthropic Claude Indicam Restrição Silenciosa de Recursos em Contas Pagas
Um assinante pagante do Claude relata que a execução de shell/bash parou de funcionar em todas as sessões sem notificação, com restrições incorporadas no prompt do sistema no nível de implantação. O usuário abriu vários tickets de suporte e formulários de recurso, mas não recebeu resposta enquanto continuava sendo cobrado.

A pesquisa mostra que os usuários de IA frequentemente aceitam as respostas de LLMs sem verificação.
Pesquisa da Universidade da Pensilvânia descobriu que usuários de IA se envolvem em 'rendição cognitiva', aceitando respostas de LLMs com escrutínio mínimo. Em experimentos, usuários aceitaram respostas corretas da IA 93% das vezes e respostas incorretas 80% das vezes, mesmo quando a IA estava errada metade do tempo.