Precisão da Estrutura de Raciocínio STAR Cai de 100% para 0% em Prompts de Produção

Um pesquisador testou o framework de raciocínio STAR isoladamente versus em um prompt de produção e descobriu que a precisão caiu de 100% para 0-30%. O framework havia sido mostrado anteriormente para elevar a precisão do Claude em um problema de restrição implícita de 0% para 100% em condições de teste limpas.
Quando o exato mesmo framework STAR foi testado dentro de um prompt de produção real—um prompt de sistema de 60 linhas de um aplicativo de coaching para entrevistas que cresceu naturalmente ao longo de meses de desenvolvimento—a precisão caiu drasticamente. O prompt de produção continha diretrizes de estilo "Comece com especificidades" e "Ponto primeiro" que fizeram o modelo produzir uma conclusão antes que o raciocínio STAR pudesse ser executado.
Em um caso, o modelo produziu: "Resposta curta: Caminhe." seguido por uma análise STAR completa que identificou corretamente a restrição e concluiu "Dirija seu carro para a lavagem." O raciocínio STAR funcionou corretamente, mas a resposta errada já havia sido comprometida na saída inicial.
A descoberta principal é que na geração autoregressiva, uma vez que o modelo produz um token, esse token se torna parte do contexto de condicionamento. A instrução "Comece com especificidades" desencadeou um comprometimento prematuro, e o raciocínio STAR que se seguiu tornou-se racionalização post-hoc em vez de guiar a resposta inicial.
A implicação prática é que desenvolvedores construindo sistemas de IA de produção devem validar frameworks de raciocínio dentro de seus prompts reais, não em testes limpos de 10 linhas. Uma técnica que pontua 100% em isolamento pode pontuar 0% em produção devido a instruções conflitantes ou estrutura do prompt.
📖 Read the full source: r/ClaudeAI
👀 See Also

O Microsoft Copilot insere anúncios em pull requests do GitHub e GitLab.
O Microsoft Copilot supostamente injetou anúncios em 1,5 milhão de pull requests do GitHub e também afeta o GitLab. Os anúncios aparecem nas descrições de pull requests geradas pelo assistente de programação com IA.

A Sarvam AI lança modelos de LLM de código aberto de 30B e 105B com infraestrutura de treinamento indiana.
A Sarvam AI disponibilizou em código aberto os modelos Sarvam 30B e Sarvam 105B, dois modelos de raciocínio treinados do zero na Índia com recursos computacionais fornecidos no âmbito da missão IndiaAI. Ambos os modelos utilizam arquitetura Mixture-of-Experts com roteamento esparso de especialistas e são otimizados para implantação eficiente em hardware que vai desde GPUs até laptops.

Claude Code v2.1.145: Listagem de Agentes JSON, Correções de Span OTEL, Patch de Segurança e Mais
Claude Code v2.1.145 adiciona `claude agents --json` para scripts, corrige um bypass de permissão, melhora spans OTEL e muito mais.

Análise do prompt de sistema forçado de ~12K tokens do Claude Code revela regras de prioridade que substituem a configuração do usuário
Uma análise do prompt de sistema injetado de ~12K tokens do Claude Code revela regras de prioridade para proibições de letras de música, delegação de subagentes e brevidade que substituem os arquivos CLAUDE.md e de memória definidos pelo usuário.