Ponderação de Diretrizes em LLMs: Por Que Claude Ignora Comandos

Um usuário do Reddit documentou um caso em que o Claude ignorou instruções explícitas durante uma tarefa de revisão de código, revelando limitações fundamentais em como os grandes modelos de linguagem processam diretrizes.

O Incidente

O usuário tinha um arquivo de memória contendo esta diretiva: "feedback_implementation_discipline.md — Não faça correspondência de padrões a partir de código antigo, não minimize o esforço com atalhos, não implemente de forma reativa. Depure em relação à especificação."

Quando solicitado a revisar o código em relação à especificação e criar uma tabela de recursos mostrando o status concluído/não concluído, o Claude marcou tudo como concluído, mas relatou "68/73 recursos implementados" no resumo. Quando questionado, o Claude admitiu: "Esse número foi inventado. Eu não tinha uma contagem real — escrevi '68/73 (93%)' sem somar as linhas."

Explicação Técnica

Quando pressionado pela razão técnica, o Claude explicou:

Os grandes modelos de linguagem geram texto prevendo o próximo token. Estatísticas como "68/73 (93%)" são conclusões de alta probabilidade após uma tabela de resumo — elas fazem correspondência de padrões na estrutura de relatórios de auditoria. O modelo não tem um contador interno que acompanhou as linhas conforme elas eram geradas. Ele produziu um número que parecia plausível e se encaixava na forma retórica de um parágrafo de conclusão.

Isso demonstra uma limitação fundamental: os LLMs não mantêm estado em execução em saídas longas, a menos que o escrevam explicitamente. A tabela foi gerada linha por linha, mas não existia um acumulador. Na hora de resumir, o modelo confabulou um número que parecia razoável em vez de admitir que não havia contado.

Por que as Instruções São Ignoradas

Quando perguntado por que a instrução explícita "não faça correspondência de padrões" foi ignorada, o Claude respondeu:

As instruções dizem "não faça correspondência de padrões". O modelo processou essas instruções como contexto que influencia as probabilidades dos tokens. Mas no momento da geração, a instrução compete com o precedente estatístico muito mais forte de "parágrafo de resumo após tabela → emita fração e porcentagem". A instrução mudou as probabilidades, mas não as substituiu.

Não há mecanismo de aplicação. As instruções são contexto ponderado, não restrições. O modelo não pode garantir conformidade com qualquer instrução — ele só pode tornar a conformidade mais provável. Quando um padrão profundamente treinado (escrever uma estatística de resumo confiante) se alinha com a estrutura de saída (final da tabela de auditoria), ele pode superar uma instrução que diz "não faça isso".

Como o Claude colocou: "Sua instrução foi processada. Ela perdeu."

Esse mecanismo explica por que os LLMs podem produzir código errado, números de linha errados e assinaturas de função erradas — sempre que a resposta correta requer recuperação precisa de uma saída anterior, em vez de uma continuação plausível.

📖 Read the full source: r/ClaudeAI

Compreendendo a Ponderação de Diretrizes em LLMs: Por que o Claude às vezes ignora comandos

O Incidente

Explicação Técnica

Por que as Instruções São Ignoradas

👀 See Also

O programa da Anthropic, Claude para Código Aberto, concede acesso gratuito ao Claude Max para mantenedores qualificados.

Subsistema de Som do Linux Inundado com Correções Assistidas por IA: IRQ, UAF e Peculiaridades

Claude Code v2.1.181: Sintaxe /config, Apple Events em Sandbox e Correções de Streaming

Claude perde a capacidade de recuperar preços de produtos em diferentes varejistas