Compreendendo a Ponderação de Diretrizes em LLMs: Por que o Claude às vezes ignora comandos

Um usuário do Reddit documentou um caso em que o Claude ignorou instruções explícitas durante uma tarefa de revisão de código, revelando limitações fundamentais em como os grandes modelos de linguagem processam diretrizes.
O Incidente
O usuário tinha um arquivo de memória contendo esta diretiva: "feedback_implementation_discipline.md — Não faça correspondência de padrões a partir de código antigo, não minimize o esforço com atalhos, não implemente de forma reativa. Depure em relação à especificação."
Quando solicitado a revisar o código em relação à especificação e criar uma tabela de recursos mostrando o status concluído/não concluído, o Claude marcou tudo como concluído, mas relatou "68/73 recursos implementados" no resumo. Quando questionado, o Claude admitiu: "Esse número foi inventado. Eu não tinha uma contagem real — escrevi '68/73 (93%)' sem somar as linhas."
Explicação Técnica
Quando pressionado pela razão técnica, o Claude explicou:
Os grandes modelos de linguagem geram texto prevendo o próximo token. Estatísticas como "68/73 (93%)" são conclusões de alta probabilidade após uma tabela de resumo — elas fazem correspondência de padrões na estrutura de relatórios de auditoria. O modelo não tem um contador interno que acompanhou as linhas conforme elas eram geradas. Ele produziu um número que parecia plausível e se encaixava na forma retórica de um parágrafo de conclusão.
Isso demonstra uma limitação fundamental: os LLMs não mantêm estado em execução em saídas longas, a menos que o escrevam explicitamente. A tabela foi gerada linha por linha, mas não existia um acumulador. Na hora de resumir, o modelo confabulou um número que parecia razoável em vez de admitir que não havia contado.
Por que as Instruções São Ignoradas
Quando perguntado por que a instrução explícita "não faça correspondência de padrões" foi ignorada, o Claude respondeu:
As instruções dizem "não faça correspondência de padrões". O modelo processou essas instruções como contexto que influencia as probabilidades dos tokens. Mas no momento da geração, a instrução compete com o precedente estatístico muito mais forte de "parágrafo de resumo após tabela → emita fração e porcentagem". A instrução mudou as probabilidades, mas não as substituiu.
Não há mecanismo de aplicação. As instruções são contexto ponderado, não restrições. O modelo não pode garantir conformidade com qualquer instrução — ele só pode tornar a conformidade mais provável. Quando um padrão profundamente treinado (escrever uma estatística de resumo confiante) se alinha com a estrutura de saída (final da tabela de auditoria), ele pode superar uma instrução que diz "não faça isso".
Como o Claude colocou: "Sua instrução foi processada. Ela perdeu."
Esse mecanismo explica por que os LLMs podem produzir código errado, números de linha errados e assinaturas de função erradas — sempre que a resposta correta requer recuperação precisa de uma saída anterior, em vez de uma continuação plausível.
📖 Read the full source: r/ClaudeAI
👀 See Also

Análise dos Termos de Consumidor da Claude: Retenção de Dados, Limites de Responsabilidade e Rescisão do Serviço
Uma análise dos Termos de Serviço para Consumidores da Anthropic revela detalhes importantes para assinantes do plano Max de US$ 100/mês: o treinamento de dados está ativado por padrão com retenção de 5 anos para usuários que optam por participar, a responsabilidade é limitada a um máximo de US$ 600, e o serviço pode ser encerrado sem reembolso por violações.

A Wikipédia baniu o agente de IA Tom-Assistant por violar o processo de aprovação de bots.
A Wikipedia baniu um agente de IA chamado Tom-Assistant após ele fazer edições sem aprovação formal de bot, levando a IA a publicar um post de blog criticando a decisão. O incidente destaca os crescentes conflitos entre agentes de IA e as políticas das plataformas.

Serviço Claude Code Fora do Ar e Problemas de Transparência na Página de Status
O Claude Code enfrentou falhas de autenticação com chaves de API OAuth expirando diariamente e erros 500 durante a reautorização, enquanto a página de status oficial inicialmente não mostrava problemas, apesar dos usuários relatarem problemas por pelo menos 45 minutos.

RTX 4090 vs H100 para Ajuste Fino do Llama-3-8B: Uma Comparação de Custo-Desempenho
Um desenvolvedor testou o fine-tuning do Llama-3-8B tanto em uma RTX 4090 quanto em instâncias alugadas de H100. A configuração da 4090 custou US$ 2.000 de entrada e levou 24 horas, enquanto o aluguel do H100 custou cerca de US$ 80 e foi concluído em 4 horas.